Shengqiong Wu, Weicai Ye, Jiahao Wang, Quande Liu, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Shuicheng Yan, Hao Fei, Tat-Seng Chua
774
Um den Engpass bei der präzisen Interpretation von Benutzerabsichten in der aktuellen Videogenerierungs-Community zu beheben, präsentieren wir Any2Caption, ein neuartiges Framework für kontrollierbare Videogenerierung unter beliebigen Bedingungen. Der Kernansatz besteht darin, verschiedene Schritte der Bedingungsinterpretation vom Schritt der Videosynthese zu entkoppeln. Durch die Nutzung moderner multimodaler großer Sprachmodelle (MLLMs) interpretiert Any2Caption diverse Eingaben – Text, Bilder, Videos und spezialisierte Hinweise wie Regionen, Bewegungen und Kameraposen – in dichte, strukturierte Beschreibungen, die den zugrunde liegenden Videogeneratoren eine bessere Anleitung bieten. Wir stellen auch Any2CapIns vor, einen umfangreichen Datensatz mit 337.000 Instanzen und 407.000 Bedingungen für die Feinabstimmung von Anweisungen zur Beschreibung unter beliebigen Bedingungen. Umfassende Evaluierungen zeigen signifikante Verbesserungen unseres Systems in Bezug auf Kontrollierbarkeit und Videoqualität in verschiedenen Aspekten bestehender Videogenerierungsmodelle. Projektseite: https://sqwu.top/Any2Cap/
Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He
616
Der Aufstieg von Large Language Models (LLMs) als Bewerter bietet eine skalierbare Alternative zur menschlichen Annotation, doch bestehende Ansätze des Supervised Fine-Tuning (SFT) für Bewerter fallen oft in Domänen mit komplexem Denken zurück. In dieser Arbeit untersuchen wir, ob LLM-Bewerter tatsächlich von verbesserten Denkfähigkeiten profitieren. Durch eine detaillierte Analyse der Anforderungen an das Denken in Bewertungsaufgaben zeigen wir eine negative Korrelation zwischen den Leistungssteigerungen durch SFT und dem Anteil der Proben, die anspruchsvolles Denken erfordern – was die Grenzen von SFT in solchen Szenarien verdeutlicht. Um dies zu adressieren, führen wir JudgeLRM ein, eine Familie von bewertungsorientierten LLMs, die mit Reinforcement Learning (RL) und richterbezogenen, ergebnisorientierten Belohnungen trainiert werden. JudgeLRM-Modelle übertreffen durchweg sowohl SFT-optimierte als auch state-of-the-art Denkmodelle. Insbesondere übertrifft JudgeLRM-3B GPT-4, und JudgeLRM-7B übertrifft DeepSeek-R1 um 2,79 % im F1-Score, wobei es besonders in Bewerteraufgaben, die tiefes Denken erfordern, hervorsticht.
Olga Golovneva, Tianlu Wang, Jason Weston, Sainbayar Sukhbaatar
522
Soft Attention ist ein entscheidender Mechanismus, der es großen Sprachmodellen (LLMs) ermöglicht, relevante Teile innerhalb eines gegebenen Kontexts zu lokalisieren. Allerdings werden die individuellen Aufmerksamkeitsgewichte lediglich durch die Ähnlichkeit eines einzelnen Query- und Key-Token-Vektors bestimmt. Diese „Single-Token-Attention“ begrenzt die Menge an Informationen, die zur Unterscheidung eines relevanten Teils vom restlichen Kontext verwendet wird. Um dieses Problem zu lösen, schlagen wir eine neue Aufmerksamkeitsmethode vor, die Multi-Token-Attention (MTA), die es LLMs ermöglicht, ihre Aufmerksamkeitsgewichte gleichzeitig auf mehrere Query- und Key-Vektoren zu konditionieren. Dies wird durch die Anwendung von Faltungsoperationen auf Queries, Keys und Heads erreicht, wodurch benachbarte Queries und Keys die Aufmerksamkeitsgewichte gegenseitig beeinflussen können, um eine präzisere Aufmerksamkeit zu erzielen. Dadurch kann unsere Methode relevante Kontexte mithilfe von reichhaltigeren und nuancenreicheren Informationen lokalisieren, die die Kapazität eines einzelnen Vektors übersteigen können. Durch umfangreiche Evaluierungen zeigen wir, dass MTA eine verbesserte Leistung auf einer Reihe von populären Benchmarks erzielt. Insbesondere übertrifft es Transformer-Baselinemodelle bei Standardaufgaben zur Sprachmodellierung sowie bei Aufgaben, die die Suche nach Informationen in langen Kontexten erfordern, wo sich die Fähigkeit unserer Methode, reichhaltigere Informationen zu nutzen, als besonders vorteilhaft erweist.
Yi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Lu Qiu, Ying Shan, Xihui Liu
383
Jüngste Fortschritte in der Generierung von Gedankenketten (Chain of Thought, COT) haben die Fähigkeiten von Large Language Models (LLMs) zur logischen Schlussfolgerung erheblich verbessert, wobei sich Reinforcement Learning (RL) als effektive Methode für das Post-Training herausgestellt hat. Multimodale Large Language Models (MLLMs) erben dieses Potenzial zur logischen Schlussfolgerung, bleiben jedoch in Aufgaben, die sowohl Wahrnehmung als auch logisches Denken erfordern, weitgehend unerforscht. Um dies zu adressieren, führen wir SEED-Bench-R1 ein, einen Benchmark, der darauf abzielt, Post-Training-Methoden für MLLMs im Bereich des Videoverständnisses systematisch zu evaluieren. Er umfasst komplexe reale Videos und anspruchsvolle Alltagsplanungsaufgaben in Form von Multiple-Choice-Fragen, die eine ausgefeilte Wahrnehmung und logische Schlussfolgerung erfordern. SEED-Bench-R1 bewertet die Generalisierungsfähigkeit durch eine dreistufige Hierarchie: In-Distribution-, Cross-Environment- und Cross-Environment-Task-Szenarien, ausgestattet mit einem umfangreichen Trainingsdatensatz mit leicht überprüfbaren Ground-Truth-Antworten. Unter Verwendung von Qwen2-VL-Instruct-7B als Basismodell vergleichen wir RL mit Supervised Fine-Tuning (SFT) und zeigen, dass RL eine höhere Dateneffizienz und überlegene Leistung sowohl bei In-Distribution- als auch bei Out-of-Distribution-Aufgaben aufweist und sogar SFT auf allgemeinen Videoverständnis-Benchmarks wie LongVideoBench übertrifft. Unsere detaillierte Analyse zeigt, dass RL die visuelle Wahrnehmung verbessert, jedoch oft weniger logisch kohärente Gedankenketten erzeugt. Wir identifizieren zentrale Einschränkungen wie inkonsistentes logisches Denken und übersehene visuelle Hinweise und schlagen zukünftige Verbesserungen in der logischen Schlussfolgerung des Basismodells, der Belohnungsmodellierung und der Robustheit von RL gegenüber verrauschten Signalen vor.
Weizhi Wang, Yu Tian, Linjie Yang, Heng Wang, Xifeng Yan
367
Die Reproduktion von state-of-the-art Multimodal Large Language Model (MLLM) Vor-Trainings stößt in jeder Phase der Pipeline auf Hindernisse, einschließlich der Filterung hochwertiger Daten, Strategien zur Mischung multimodaler Daten, Techniken zur Sequenzpackung und Trainingsframeworks. Wir stellen Open-Qwen2VL vor, ein vollständig quelloffenes Multimodales Großes Sprachmodell mit 2B Parametern, das effizient auf 29M Bild-Text-Paaren mit nur 442 A100-40G GPU-Stunden vorab trainiert wurde. Unser Ansatz nutzt eine dynamische Bildauflösung von niedrig bis hoch und multimodale Sequenzpackung, um die Effizienz des Vor-Trainings erheblich zu steigern. Der Trainingsdatensatz wurde sorgfältig kuratiert, indem sowohl MLLM-basierte Filtertechniken (z.B. MLM-Filter) als auch konventionelle CLIP-basierte Filtermethoden verwendet wurden, was die Datenqualität und Trainings effizienz erheblich verbesserte. Das Open-Qwen2VL Vor-Training wurde auf akademischer Ebene auf 8xA100-40G GPUs an der UCSB mit 5B gepackten multimodalen Tokens durchgeführt, was 0,36% der 1,4T multimodalen Vor-Training-Tokens von Qwen2-VL entspricht. Das final instruktionsfeinabgestimmte Open-Qwen2VL übertrifft das teilweise offene state-of-the-art MLLM Qwen2-VL-2B in verschiedenen multimodalen Benchmarks wie MMBench, SEEDBench, MMstar und MathVista, was die bemerkenswerte Trainings effizienz von Open-Qwen2VL unterstreicht. Wir stellen alle Aspekte unserer Arbeit quelloffen zur Verfügung, einschließlich rechen- und dateneffizienter Trainingsdetails, Datenfilterungsmethoden, Sequenzpackungsskripte, Vor-Trainingsdaten im WebDataset-Format, FSDP-basierte Trainingscodebasis sowie sowohl Basis- als auch instruktionsfeinabgestimmte Modellcheckpoints. Wir definieren „vollständig offen“ für multimodale LLMs neu als die vollständige Veröffentlichung von: 1) der Trainingscodebasis, 2) detaillierten Datenfiltertechniken und 3) allen Vor-Trainings- und überwachten Feinabstimmungsdaten, die zur Entwicklung des Modells verwendet wurden.
Anjiang Wei, Tarun Suresh, Jiannan Cao, Naveen Kannan, Yuheng Wu, Kai Yan, Thiago S. F. X. Teixeira, Ke Wang, Alex Aiken
342
Die induktive Programmsynthese, auch bekannt als Programmieren durch Beispiele, erfordert die Synthese von Funktionen aus Eingabe-Ausgabe-Beispielen, die auf unbekannte Eingaben verallgemeinern können. Während große Sprachmodell-Agenten vielversprechende Ergebnisse bei Programmieraufgaben gezeigt haben, die durch natürliche Sprache gesteuert werden, ist ihre Fähigkeit zur induktiven Programmsynthese noch wenig erforscht. Bestehende Evaluierungsprotokolle stützen sich auf statische Beispielsätze und zurückgehaltene Tests, bieten jedoch kein Feedback, wenn synthetisierte Funktionen fehlerhaft sind, und spiegeln keine realen Szenarien wie Reverse Engineering wider. Wir schlagen CodeARC, die Code Abstraction and Reasoning Challenge, vor, ein neues Evaluierungsframework, in dem Agenten mit einer verborgenen Zielfunktion interagieren, indem sie diese mit neuen Eingaben abfragen, Kandidatenfunktionen synthetisieren und ihre Lösungen iterativ mithilfe eines Differential-Testing-Orakels verfeinern. Diese interaktive Umgebung ermutigt Agenten, Funktionsaufrufe und Selbstkorrekturen basierend auf Feedback durchzuführen. Wir erstellen den ersten groß angelegten Benchmark für allgemeine induktive Programmsynthese, der 1114 Funktionen umfasst. Unter den 18 evaluierten Modellen schneidet o3-mini mit einer Erfolgsquote von 52,7 % am besten ab, was die Schwierigkeit dieser Aufgabe unterstreicht. Das Feinabstimmen von LLaMA-3.1-8B-Instruct auf kuratierte Synthesepfade führt zu einer relativen Leistungssteigerung von bis zu 31 %. CodeARC bietet eine realistischere und anspruchsvollere Testumgebung für die Bewertung von LLM-basierter Programmsynthese und induktivem Denken.
David Fan, Shengbang Tong, Jiachen Zhu, Koustuv Sinha, Zhuang Liu, Xinlei Chen, Michael Rabbat, Nicolas Ballas, Yann LeCun, Amir Bar, Saining Xie
304
Visuelles Self-Supervised Learning (SSL) schneidet derzeit in multimodalen Settings wie Visual Question Answering (VQA) schlechter ab als Contrastive Language-Image Pretraining (CLIP). Diese multimodale Lücke wird oft auf die durch Sprachsupervision eingeführte Semantik zurückgeführt, obwohl visuelle SSL- und CLIP-Modelle häufig auf unterschiedlichen Daten trainiert werden. In dieser Arbeit stellen wir die Frage: „Hinken visuelle Self-Supervised-Ansätze CLIP hinterher, weil ihnen Sprachsupervision fehlt, oder aufgrund von Unterschieden in den Trainingsdaten?“ Wir untersuchen diese Frage, indem wir sowohl visuelle SSL- als auch CLIP-Modelle auf denselben MetaCLIP-Daten trainieren und VQA als vielfältige Testumgebung für Vision-Encoder nutzen. In diesem kontrollierten Setup skalieren visuelle SSL-Modelle besser als CLIP-Modelle in Bezug auf Daten und Modellkapazität, und die Leistung von visuellem SSL erreicht selbst nach der Skalierung auf 7 Milliarden Parameter keine Sättigung. Folglich beobachten wir, dass visuelle SSL-Methoden CLIP-ähnliche Leistung auf einer breiten Palette von VQA- und klassischen Vision-Benchmarks erreichen. Diese Ergebnisse zeigen, dass rein visuelles SSL bei entsprechender Skalierung sprachsupervidiertes visuelles Pretraining erreichen kann, was neue Möglichkeiten für vision-zentriertes Repräsentationslernen eröffnet.
Trotz bemerkenswerter Fortschritte in der Video-Tiefenschätzung weisen bestehende Methoden inhärente Einschränkungen bei der Erreichung geometrischer Genauigkeit durch affin-invariante Vorhersagen auf, was ihre Anwendbarkeit in der Rekonstruktion und anderen metrisch fundierten nachgelagerten Aufgaben begrenzt. Wir stellen GeometryCrafter vor, ein neuartiges Framework, das hochpräzise Punktkarten-Sequenzen mit zeitlicher Kohärenz aus Open-World-Videos wiederherstellt und damit präzise 3D/4D-Rekonstruktion, Kameraparameterschätzung und andere tiefenbasierte Anwendungen ermöglicht. Im Kern unseres Ansatzes liegt ein Punktkarten-Variational Autoencoder (VAE), der einen latenten Raum lernt, der unabhängig von den latenten Verteilungen der Videos ist, um eine effektive Kodierung und Dekodierung von Punktkarten zu ermöglichen. Unter Nutzung des VAE trainieren wir ein Video-Diffusionsmodell, um die Verteilung von Punktkarten-Sequenzen, bedingt durch die Eingabevideos, zu modellieren. Umfangreiche Auswertungen auf diversen Datensätzen zeigen, dass GeometryCrafter state-of-the-art 3D-Genauigkeit, zeitliche Konsistenz und Generalisierungsfähigkeit erreicht.
Zhanke Zhou, Zhaocheng Zhu, Xuan Li, Mikhail Galkin, Xiao Feng, Sanmi Koyejo, Jian Tang, Bo Han
282
Zahlreiche Anwendungen großer Sprachmodelle (LLMs) basieren auf ihrer Fähigkeit, schrittweise Schlussfolgerungen zu ziehen. Das Schlussfolgerungsverhalten von LLMs bleibt jedoch weitgehend unverstanden, was Herausforderungen für Forschung, Entwicklung und Sicherheit darstellt. Um diese Lücke zu schließen, führen wir die "Landscape of Thoughts" ein – das erste Visualisierungswerkzeug, mit dem Benutzer die Argumentationspfade von Chain-of-Thought und seinen Derivaten in jedem Multiple-Choice-Datensatz untersuchen können. Konkret repräsentieren wir die Zustände in einem Argumentationspfad als Feature-Vektoren, die ihre Abstände zu allen Antwortmöglichkeiten quantifizieren. Diese Merkmale werden dann mithilfe von t-SNE in zweidimensionalen Diagrammen visualisiert. Qualitative und quantitative Analysen mit der "Landscape of Thoughts" unterscheiden effektiv zwischen starken und schwachen Modellen, richtigen und falschen Antworten sowie verschiedenen Argumentationsaufgaben. Sie decken auch unerwünschte Argumentationsmuster auf, wie geringe Konsistenz und hohe Unsicherheit. Darüber hinaus können Benutzer unser Werkzeug an ein Modell anpassen, das die von ihnen beobachtete Eigenschaft vorhersagt. Wir demonstrieren diesen Vorteil, indem wir unser Werkzeug an einen leichten Verifizierer anpassen, der die Korrektheit von Argumentationspfaden bewertet. Der Code ist öffentlich verfügbar unter: https://github.com/tmlr-group/landscape-of-thoughts.
Große Sprachmodelle (LLMs) können durch Skalierung der Rechenleistung zur Laufzeit verbesserte Fähigkeiten zur Lösung komplexer Probleme erreichen, was jedoch oft längere Kontexte und zahlreiche Kosten für Schlussfolgerungstokens mit sich bringt. In diesem Artikel schlagen wir eine effiziente Methode zur Skalierung zur Laufzeit vor, bei der LLMs an Code-bezogenen Schlussfolgerungspfaden trainiert werden, wodurch sie überschüssige Denktokens reduzieren können, ohne die Leistung zu beeinträchtigen. Zunächst erstellen wir Z1-Code-Reasoning-107K, ein kuratiertes Datenset aus einfachen und komplexen Codierungsproblemen, die mit ihren kurzen und langen Lösungspfaden gepaart sind. Zweitens stellen wir ein neuartiges Shifted Thinking Window vor, um den Overhead durch Überdenken zu verringern, indem kontextbegrenzende Tags (z. B. <think>. . . </think>) entfernt und Schlussfolgerungstokens begrenzt werden. Unser Modell, Z1-7B, das mit Daten aus langen und kurzen Pfaden trainiert und mit dem Shifted Thinking Window ausgestattet ist, zeigt die Fähigkeit, sein Schlussfolgerungsniveau an die Komplexität der Probleme anzupassen, und weist eine effiziente Skalierung zur Laufzeit über verschiedene Schlussfolgerungsaufgaben hinweg auf, die die Leistung von R1-Distill-Qwen-7B mit etwa 30 % seiner durchschnittlichen Denktokens erreicht. Bemerkenswert ist, dass Z1-7B, das nur an Codepfaden feinabgestimmt wurde, eine Generalisierung auf breitere Schlussfolgerungsaufgaben zeigt (47,5 % auf GPQA Diamond). Unsere Analyse der effizienten Schlussfolgerungsauslösung liefert auch wertvolle Erkenntnisse für zukünftige Forschungen.
Team Cohere, Aakanksha, Arash Ahmadian, Marwan Ahmed, Jay Alammar, Yazeed Alnumay, Sophia Althammer, Arkady Arkhangorodsky, Viraat Aryabumi, Dennis Aumiller, Raphaël Avalos, Zahara Aviv, Sammie Bae, Saurabh Baji, Alexandre Barbet, Max Bartolo, Björn Bebensee, Neeral Beladia, Walter Beller-Morales, Alexandre Bérard, Andrew Berneshawi, Anna Bialas, Phil Blunsom, Matt Bobkin, Adi Bongale, Sam Braun, Maxime Brunet, Samuel Cahyawijaya, David Cairuz, Jon Ander Campos, Cassie Cao, Kris Cao, Roman Castagné, Julián Cendrero, Leila Chan Currie, Yash Chandak, Diane Chang, Giannis Chatziveroglou, Hongyu Chen, Claire Cheng, Alexis Chevalier, Justin T. Chiu, Eugene Cho, Eugene Choi, Eujeong Choi, Tim Chung, Volkan Cirik, Ana Cismaru, Pierre Clavier, Henry Conklin, Lucas Crawhall-Stein, Devon Crouse, Andres Felipe Cruz-Salinas, Ben Cyrus, Daniel D'souza, Hugo Dalla-Torre, John Dang, William Darling, Omar Darwiche Domingues, Saurabh Dash, Antoine Debugne, Théo Dehaze, Shaan Desai, Joan Devassy, Rishit Dholakia, Kyle Duffy, Ali Edalati, Ace Eldeib, Abdullah Elkady, Sarah Elsharkawy, Irem Ergün, Beyza Ermis, Marzieh Fadaee, Boyu Fan, Lucas Fayoux, Yannis Flet-Berliac, Nick Frosst, Matthias Gallé, Wojciech Galuba, Utsav Garg, Matthieu Geist, Mohammad Gheshlaghi Azar, Seraphina Goldfarb-Tarrant, Tomas Goldsack, Aidan Gomez, Victor Machado Gonzaga, Nithya Govindarajan, Manoj Govindassamy, Nathan Grinsztajn, Nikolas Gritsch, Patrick Gu, Shangmin Guo, Kilian Haefeli, Rod Hajjar, Tim Hawes, Jingyi He, Sebastian Hofstätter, Sungjin Hong, Sara Hooker, Tom Hosking, Stephanie Howe, Eric Hu, Renjie Huang, Hemant Jain, Ritika Jain, Nick Jakobi, Madeline Jenkins, JJ Jordan, Dhruti Joshi, Jason Jung, Trushant Kalyanpur, Siddhartha Rao Kamalakara, Julia Kedrzycki, Gokce Keskin, Edward Kim, Joon Kim, Wei-Yin Ko, Tom Kocmi, Michael Kozakov, Wojciech Kryściński, Arnav Kumar Jain, Komal Kumar Teru, Sander Land, Michael Lasby, Olivia Lasche, Justin Lee, Patrick Lewis, Jeffrey Li, Jonathan Li, Hangyu Lin, Acyr Locatelli, Kevin Luong, Raymond Ma, Lukas Mach, Marina Machado, Joanne Magbitang, Brenda Malacara Lopez, Aryan Mann, Kelly Marchisio, Olivia Markham, Alexandre Matton, Alex McKinney, Dominic McLoughlin, Jozef Mokry, Adrien Morisot, Autumn Moulder, Harry Moynehan, Maximilian Mozes, Vivek Muppalla, Lidiya Murakhovska, Hemangani Nagarajan, Alekhya Nandula, Hisham Nasir, Shauna Nehra, Josh Netto-Rosen, Daniel Ohashi, James Owers-Bardsley, Jason Ozuzu, Dennis Padilla, Gloria Park, Sam Passaglia, Jeremy Pekmez, Laura Penstone, Aleksandra Piktus, Case Ploeg, Andrew Poulton, Youran Qi, Shubha Raghvendra, Miguel Ramos, Ekagra Ranjan, Pierre Richemond, Cécile Robert-Michon, Aurélien Rodriguez, Sudip Roy, Laura Ruis, Louise Rust, Anubhav Sachan, Alejandro Salamanca, Kailash Karthik Saravanakumar, Isha Satyakam, Alice Schoenauer Sebag, Priyanka Sen, Sholeh Sepehri, Preethi Seshadri, Ye Shen, Tom Sherborne, Sylvie Chang Shi, Sanal Shivaprasad, Vladyslav Shmyhlo, Anirudh Shrinivason, Inna Shteinbuk, Amir Shukayev, Mathieu Simard, Ella Snyder, Ava Spataru, Victoria Spooner, Trisha Starostina, Florian Strub, Yixuan Su, Jimin Sun, Dwarak Talupuru, Eugene Tarassov, Elena Tommasone, Jennifer Tracey, Billy Trend, Evren Tumer, Ahmet Üstün, Bharat Venkitesh, David Venuto, Pat Verga, Maxime Voisin, Alex Wang, Donglu Wang, Shijian Wang, Edmond Wen, Naomi White, Jesse Willman, Marysia Winkels, Chen Xia, Jessica Xie, Minjie Xu, Bowen Yang, Tan Yi-Chern, Ivan Zhang, Zhenyu Zhao, Zhoujie Zhao
263
In diesem Bericht beschreiben wir die Entwicklung von Command A, einem leistungsstarken großen Sprachmodell, das speziell für reale Unternehmensanwendungen entwickelt wurde. Command A ist ein agentenoptimiertes und mehrsprachiges Modell, das 23 Sprachen des globalen Geschäftsverkehrs unterstützt und eine neuartige hybride Architektur aufweist, die Effizienz mit Spitzenleistung in Einklang bringt. Es bietet erstklassige Fähigkeiten im Bereich Retrieval Augmented Generation (RAG) mit Verankerung und Werkzeugnutzung, um anspruchsvolle Geschäftsprozesse zu automatisieren. Diese Fähigkeiten werden durch einen dezentralen Trainingsansatz erreicht, der Selbstverfeinerungsalgorithmen und Modellzusammenführungstechniken umfasst. Wir präsentieren auch Ergebnisse für Command R7B, das ähnliche Fähigkeiten und architektonische Merkmale wie Command A aufweist. Die Gewichte beider Modelle wurden zu Forschungszwecken veröffentlicht. Dieser technische Bericht beschreibt unseren ursprünglichen Trainingspipeline und präsentiert eine umfassende Bewertung unserer Modelle anhand einer Reihe von unternehmensrelevanten Aufgaben und öffentlichen Benchmarks, die hervorragende Leistung und Effizienz demonstrieren.
Saaket Agashe, Kyle Wong, Vincent Tu, Jiachen Yang, Ang Li, Xin Eric Wang
222
Computernutzungs-Agenten automatisieren digitale Aufgaben, indem sie direkt mit grafischen Benutzeroberflächen (GUIs) auf Computern und mobilen Geräten interagieren und bieten somit ein erhebliches Potenzial, die menschliche Produktivität zu steigern, indem sie ein offenes Spektrum von Benutzeranfragen bearbeiten. Allerdings stehen aktuelle Agenten vor erheblichen Herausforderungen: ungenaue Verankerung von GUI-Elementen, Schwierigkeiten bei der langfristigen Aufgabenplanung und Leistungsengpässe durch die Abhängigkeit von einzelnen Generalistenmodellen für diverse kognitive Aufgaben. Zu diesem Zweck stellen wir Agent S2 vor, ein neuartiges kompositionelles Framework, das kognitive Verantwortlichkeiten auf verschiedene Generalisten- und Spezialistenmodelle verteilt. Wir schlagen eine neuartige Mixture-of-Grounding-Technik vor, um eine präzise GUI-Lokalisierung zu erreichen, und führen Proaktive Hierarchische Planung ein, die Aktionspläne auf mehreren zeitlichen Ebenen dynamisch verfeinert, um sich an sich entwickelnde Beobachtungen anzupassen. Evaluierungen zeigen, dass Agent S2 eine neue Bestleistung (State-of-the-Art, SOTA) auf drei prominenten Computernutzungs-Benchmarks erreicht. Insbesondere erzielt Agent S2 relative Verbesserungen von 18,9 % und 32,7 % gegenüber führenden Baseline-Agenten wie Claude Computer Use und UI-TARS bei der 15-Schritt- und 50-Schritt-Evaluierung von OSWorld. Darüber hinaus generalisiert Agent S2 effektiv auf andere Betriebssysteme und Anwendungen und übertrifft die bisher besten Methoden um 52,8 % auf WindowsAgentArena und um 16,52 % auf AndroidWorld. Der Code ist verfügbar unter https://github.com/simular-ai/Agent-S.
Kai Yan, Yufei Xu, Zhengyin Du, Xuesong Yao, Zheyu Wang, Xiaowen Guo, Jiecao Chen
2215
Die rasante Steigerung von Grundschulniveau zu den Grenzproblemen der Schwierigkeit bei LLM-Benchmarks in den letzten Jahren hat für Forscher ein Wunder gewoben, das uns nur noch wenige Zentimeter davon entfernt scheint, die menschliche Intelligenz zu übertreffen. Doch stammt die bemerkenswerte Fähigkeit der LLMs zum logischen Denken tatsächlich aus wahrer Intelligenz nach menschlichen Maßstäben, oder rezitieren sie lediglich Lösungen, die sie während des Trainings auf Internetebene gesehen haben? Um dieses Problem zu untersuchen, schlagen wir RoR-Bench vor, einen neuartigen, multimodalen Benchmark zur Erkennung des Rezitationsverhaltens von LLMs, wenn sie mit einfachen, aber subtil veränderten logischen Problemen konfrontiert werden, und führen eine empirische Analyse auf unserem Benchmark durch. Überraschenderweise stellten wir fest, dass bestehende Spitzen-LLMs einstimmig ein extrem starkes Rezitationsverhalten zeigen; durch die Änderung einer einzigen Phrase in der Bedingung können Top-Modelle wie OpenAI-o1 und DeepSeek-R1 eine Leistungseinbuße von 60 % bei arithmetischen und logischen Problemen auf Grundschulniveau erleiden. Solche Erkenntnisse sind ein Weckruf für die LLM-Community, der uns zwingt, das wahre Intelligenzniveau von Spitzen-LLMs neu zu bewerten.
Die effektive Bewertung großer Sprachmodelle (LLMs) bleibt ein kritischer Engpass, da traditionelle statische Benchmarks unter Sättigung und Kontamination leiden, während menschliche Bewertungen kostspielig und langsam sind. Dies behindert eine zeitnahe oder domänenspezifische Bewertung, die für reale Anwendungen entscheidend ist. Wir stellen YourBench vor, ein neuartiges, Open-Source-Framework, das diese Einschränkungen überwindet, indem es die dynamische, automatisierte Generierung zuverlässiger, aktueller und domänenspezifischer Benchmarks ermöglicht – kostengünstig und ohne manuelle Annotation, direkt aus von Benutzern bereitgestellten Dokumenten. Wir demonstrieren seine Wirksamkeit, indem wir 7 diverse MMLU-Teilbereiche mit minimalem Quelltext replizieren und dies für insgesamt weniger als 15 USD an Inferenzkosten erreichen, während die relativen Modellleistungsrankings (Spearman Rho = 1) des ursprünglichen Benchmarks perfekt erhalten bleiben. Um sicherzustellen, dass YourBench Daten auf der Grundlage der bereitgestellten Eingabe generiert und nicht auf dem posterioren parametrischen Wissen der Modelle beruht, führen wir auch Tempora-0325 ein, einen neuartigen Datensatz mit über 7.000 diversen Dokumenten, die ausschließlich nach März 2025 veröffentlicht wurden. Unsere umfassende Analyse umfasst 26 State-of-the-Art-Modelle aus 7 großen Familien über verschiedene Skalen (3-671B Parameter), um die Qualität der generierten Bewertungen durch rigorose algorithmische Überprüfungen (z. B. Zitiergrundlage) und menschliche Bewertungen zu validieren. Wir veröffentlichen die YourBench-Bibliothek, den Tempora-0325-Datensatz, über 150.000 Frage-Antwort-Paare basierend auf Tempora sowie alle Bewertungs- und Inferenzspuren, um reproduzierbare Forschung zu ermöglichen und die Gemeinschaft zu befähigen, maßgeschneiderte Benchmarks nach Bedarf zu generieren, wodurch relevantere und vertrauenswürdigere LLM-Bewertungen gefördert werden.
Yucheng Shi, Wenhao Yu, Wenlin Yao, Wenhu Chen, Ninghao Liu
213
GUI-Agenten, die durch große Basismodelle angetrieben werden, können mit digitalen Schnittstellen interagieren und ermöglichen so verschiedene Anwendungen in der Webautomatisierung, mobilen Navigation und Softwaretests. Ihre zunehmende Autonomie hat jedoch kritische Bedenken hinsichtlich Sicherheit, Privatsphäre und Sicherheit aufgeworfen. Diese Untersuchung beleuchtet die Vertrauenswürdigkeit von GUI-Agenten in fünf entscheidenden Dimensionen: Sicherheitslücken, Zuverlässigkeit in dynamischen Umgebungen, Transparenz und Erklärbarkeit, ethische Überlegungen sowie Evaluierungsmethoden. Wir identifizieren zudem wesentliche Herausforderungen wie die Anfälligkeit für adversariale Angriffe, kaskadierende Fehlermodi bei sequenziellen Entscheidungsprozessen und den Mangel an realistischen Evaluierungsbenchmarks. Diese Probleme behindern nicht nur den Einsatz in der Praxis, sondern erfordern auch umfassende Strategien zur Risikominderung, die über den bloßen Aufgaben-Erfolg hinausgehen. Da GUI-Agenten immer weiter verbreitet werden, ist die Etablierung robuster Sicherheitsstandards und verantwortungsvoller Entwicklungsmethoden unerlässlich. Diese Untersuchung bietet eine Grundlage für die Weiterentwicklung vertrauenswürdiger GUI-Agenten durch systematisches Verständnis und zukünftige Forschung.
Pablo Ruiz-Ponce, German Barquero, Cristina Palmero, Sergio Escalera, José García-Rodríguez
192
Die Erzeugung menschlicher Bewegungen, die durch Bedingungen wie Textbeschreibungen gesteuert werden, ist aufgrund des Bedarfs an Datensätzen mit Paaren von hochwertigen Bewegungen und ihren entsprechenden Bedingungen eine Herausforderung. Die Schwierigkeit erhöht sich, wenn eine feinere Kontrolle bei der Generierung angestrebt wird. Zu diesem Zweck haben frühere Arbeiten vorgeschlagen, mehrere Bewegungsdiffusionsmodelle, die auf Datensätzen mit unterschiedlichen Arten von Bedingungen vortrainiert wurden, zu kombinieren, wodurch eine Steuerung mit mehreren Bedingungen ermöglicht wird. Die vorgeschlagenen Zusammenführungsstrategien übersehen jedoch, dass die optimale Art und Weise, die Generierungsprozesse zu kombinieren, von den Besonderheiten jedes vortrainierten generativen Modells und auch von den spezifischen Textbeschreibungen abhängen könnte. In diesem Kontext stellen wir MixerMDM vor, die erste lernbare Modellkompositionstechnik zur Kombination vortrainierter textgesteuerter menschlicher Bewegungsdiffusionsmodelle. Im Gegensatz zu früheren Ansätzen bietet MixerMDM eine dynamische Mischstrategie, die in einem adversarischen Verfahren trainiert wird, um zu lernen, den Entrauschungsprozess jedes Modells abhängig von den Bedingungen, die die Generierung steuern, zu kombinieren. Durch die Verwendung von MixerMDM zur Kombination von Einzel- und Mehrpersonen-Bewegungsdiffusionsmodellen erreichen wir eine fein abgestimmte Kontrolle über die Dynamik jeder einzelnen Person sowie über die Gesamtinteraktion. Darüber hinaus schlagen wir eine neue Bewertungstechnik vor, die erstmals bei dieser Aufgabe die Interaktion und individuelle Qualität misst, indem sie die Ausrichtung zwischen den gemischten generierten Bewegungen und ihren Bedingungen sowie die Fähigkeiten von MixerMDM zur Anpassung der Mischung während des Entrauschungsprozesses in Abhängigkeit von den zu mischenden Bewegungen berechnet.
Die rasante Weiterentwicklung multimodaler Sprachmodelle (MLLMs) wie GPT-4o hat die Entwicklung von Omni-Sprachmodellen vorangetrieben, die darauf ausgelegt sind, kontinuierliche Datenströme aus verschiedenen Modalitäten zu verarbeiten und proaktiv darauf zu reagieren. Trotz ihres Potenzials bleibt die Bewertung ihrer interaktiven Fähigkeiten in Echtzeit-Videokontexten eine große Herausforderung. In dieser Arbeit stellen wir OmniMMI vor, einen umfassenden Benchmark für multimodale Interaktion, der speziell für OmniLLMs in Echtzeit-Videokontexten entwickelt wurde. OmniMMI umfasst über 1.121 Videos und 2.290 Fragen und adressiert zwei kritische, aber bisher wenig erforschte Herausforderungen in bestehenden Video-Benchmarks: das Verständnis von Echtzeit-Videos und proaktives Schlussfolgern über sechs verschiedene Teilaufgaben hinweg. Darüber hinaus schlagen wir ein neuartiges Framework vor, das Multi-modal Multiplexing Modeling (M4), das darauf abzielt, ein inferenzeffizientes Streaming-Modell zu ermöglichen, das gleichzeitig sehen, hören und generieren kann.
Rui Wang, Hongru Wang, Boyang Xue, Jianhui Pang, Shudong Liu, Yi Chen, Jiahao Qiu, Derek Fai Wong, Heng Ji, Kam-Fai Wong
172
Jüngste Fortschritte bei Large Language Models (LLMs) haben ihre Fähigkeit zur Bewältigung komplexer Denkaufgaben erheblich verbessert, wobei sie sich von schnellem und intuitivem Denken (System 1) zu langsamem und tiefgründigem Denken (System 2) weiterentwickelt haben. Während das System-2-Denken die Genauigkeit bei Aufgaben verbessert, verursacht es aufgrund seiner langsamen Denkweise und ineffizienter oder unnötiger Denkprozesse oft erhebliche Rechenkosten. Im Gegensatz dazu ist das System-1-Denken recheneffizient, führt jedoch zu suboptimalen Ergebnissen. Folglich ist es entscheidend, den Kompromiss zwischen Leistung (Nutzen) und Rechenkosten (Budget) auszubalancieren, was das Konzept der Denkökonomie hervorgebracht hat. In dieser Übersichtsarbeit bieten wir eine umfassende Analyse der Denkökonomie sowohl in der Post-Training- als auch in der Testzeit-Inferenzphase von LLMs, einschließlich i) der Ursachen für Denkineffizienz, ii) der Verhaltensanalyse verschiedener Denkmuster und iii) potenzieller Lösungen zur Erreichung einer Denkökonomie. Durch die Bereitstellung umsetzbarer Erkenntnisse und die Hervorhebung offener Herausforderungen möchten wir Strategien zur Verbesserung der Denkökonomie von LLMs beleuchten und damit als wertvolle Ressource für die Weiterentwicklung der Forschung in diesem sich entwickelnden Bereich dienen. Wir stellen auch ein öffentliches Repository zur Verfügung, um die Entwicklungen in diesem schnelllebigen Feld kontinuierlich zu verfolgen.
Nishad Singhi, Hritik Bansal, Arian Hosseini, Aditya Grover, Kai-Wei Chang, Marcus Rohrbach, Anna Rohrbach
151
Die Skalierung der Rechenleistung zur Testzeit hat sich als zentrale Strategie zur Verbesserung der Fähigkeiten großer Sprachmodelle (LLMs) im Bereich des logischen Denkens erwiesen, insbesondere bei Aufgaben wie der Lösung mathematischer Probleme. Ein traditioneller Ansatz, Self-Consistency (SC), generiert mehrere Lösungen für ein Problem und wählt die häufigste Antwort durch Mehrheitsentscheidung aus. Eine andere gängige Methode besteht darin, jede Lösung mit einem Belohnungsmodell (Verifizierer) zu bewerten und die beste auszuwählen. Jüngste Fortschritte bei Generativen Belohnungsmodellen (GenRM) formulieren die Verifizierung als eine Aufgabe zur Vorhersage des nächsten Tokens neu, wodurch die Skalierung zur Inferenzzeit entlang einer neuen Achse ermöglicht wird. GenRM generiert speziell mehrere Verifizierungsketten von Gedanken, um jede Lösung zu bewerten. Bei einem begrenzten Inferenzbudget ergibt sich hier ein grundlegendes Dilemma: Sollte das Budget für die Skalierung von Lösungen über SC verwendet werden oder sollten weniger Lösungen generiert und die Rechenleistung für die Verifizierung über GenRM zugewiesen werden? Um dies zu untersuchen, bewerten wir GenRM im Vergleich zu SC unter einem festen Inferenzbudget. Interessanterweise stellen wir fest, dass SC für die meisten praktischen Inferenzbudgets über verschiedene Modelle und Datensätze hinweg recheneffizienter ist als GenRM. Beispielsweise erreicht GenRM erst nach dem Verbrauch von bis zu 8x der Inferenz-Rechenleistung das Niveau von SC und benötigt deutlich mehr Rechenleistung, um es zu übertreffen. Darüber hinaus leiten wir Inferenz-Skalierungsgesetze für das GenRM-Paradigma ab, die zeigen, dass eine rechenoptimale Inferenz die Skalierung der Lösungsgenerierung stärker begünstigt als die Skalierung der Anzahl der Verifizierungen. Unsere Arbeit bietet praktische Anleitungen zur Optimierung der Skalierung zur Testzeit durch die Balance zwischen Lösungsgenerierung und Verifizierung. Der Code ist verfügbar unter https://github.com/nishadsinghi/sc-genrm-scaling.
Jewon Lee, Ki-Ung Song, Seungmin Yang, Donguk Lim, Jaeyeon Kim, Wooksu Shin, Bo-Kyeong Kim, Yong Jae Lee, Tae-Ho Kim
152
Die Reduktion visueller Tokens senkt die Inferenzkosten, die durch umfangreiche Bildmerkmale in großen visuell-sprachlichen Modellen (LVLMs) verursacht werden. Im Gegensatz zu relevanten Studien, die Tokens in LVLMs mit ausschließlicher Selbstaufmerksamkeit beschneiden, adressiert unsere Arbeit einzigartig Modelle, die auf Kreuzaufmerksamkeit basieren und eine überlegene Leistung erzielen. Wir stellen fest, dass die Größe des Schlüssel-Wert (KV)-Caches für Bildtokens in Kreuzaufmerksamkeitsschichten diejenige von Texttokens in Selbstaufmerksamkeitsschichten deutlich übersteigt, was einen erheblichen Rechenengpass darstellt. Um dieses Problem zu mildern, nutzen wir die spärliche Natur in Kreuzaufmerksamkeitskarten, um redundante visuelle Merkmale selektiv zu beschneiden. Unser „Trimmed Llama“ reduziert effektiv die Anforderungen an den KV-Cache, ohne zusätzliches Training zu erfordern. Durch die Nutzung von 50 % reduzierten visuellen Merkmalen kann unser Modell die Inferenzlatenz und den Speicherverbrauch verringern, während es die Benchmark-Leistung beibehält.
Yiyang Du, Xiaochen Wang, Chi Chen, Jiabo Ye, Yiru Wang, Peng Li, Ming Yan, Ji Zhang, Fei Huang, Zhifang Sui, Maosong Sun, Yang Liu
113
Kürzlich haben Modellzusammenführungsmethoden ihre Stärken bei der Kombination von Fähigkeiten in verschiedenen Aufgaben aus mehreren Large Language Models (LLMs) unter Beweis gestellt. Während sich frühere Modellzusammenführungsmethoden hauptsächlich auf die Zusammenführung homogener Modelle mit identischer Architektur konzentrierten, stoßen sie auf Herausforderungen, wenn sie mit Multimodalen Large Language Models (MLLMs) umgehen, die inhärente heterogene Eigenschaften aufweisen, einschließlich Unterschieden in der Modellarchitektur und Asymmetrien im Parameterraum. In dieser Arbeit schlagen wir AdaMMS vor, eine neuartige Modellzusammenführungsmethode, die speziell für heterogene MLLMs entwickelt wurde. Unsere Methode bewältigt die Herausforderungen in drei Schritten: Mapping, Zusammenführung und Suche. Konkret entwerfen wir zunächst eine Mapping-Funktion zwischen Modellen, um die Modellzusammenführung auf MLLMs mit unterschiedlicher Architektur anzuwenden. Dann wenden wir eine lineare Interpolation auf die Modellgewichte an, um die Asymmetrie in den heterogenen MLLMs aktiv anzupassen. Schließlich schlagen wir im Schritt der Hyperparameter-Suche eine unüberwachte Methode zur Auswahl von Hyperparametern für die Modellzusammenführung vor. Als erste Modellzusammenführungsmethode, die in der Lage ist, heterogene MLLMs ohne beschriftete Daten zusammenzuführen, zeigen umfangreiche Experimente mit verschiedenen Modellkombinationen, dass AdaMMS frühere Modellzusammenführungsmethoden auf verschiedenen Vision-Language-Benchmarks übertrifft.
Test-Time Scaling hat sich als leistungsstarke Technik zur Verbesserung der Fähigkeiten großer Sprachmodelle im Bereich des logischen Denkens erwiesen. Seine Wirksamkeit im medizinischen Denken bleibt jedoch ungewiss, da sich der medizinische Bereich grundlegend von mathematischen Aufgaben in Bezug auf Wissensrepräsentation und Entscheidungsprozesse unterscheidet. In diesem Artikel liefern wir die erste umfassende Untersuchung von Test-Time Scaling für medizinisches Denken und stellen m1 vor, einen einfachen, aber effektiven Ansatz, der die medizinische Denkfähigkeit eines Modells während der Inferenz steigert. Unsere Bewertung über verschiedene medizinische Aufgaben hinweg zeigt, dass Test-Time Scaling das medizinische Denken konsequent verbessert und es feinabgestimmten Modellen mit weniger als 10B Parametern ermöglicht, neue State-of-the-Art-Leistungen zu erzielen, während unser 32B-Modell mit früheren medizinischen LLMs im 70B-Maßstab konkurriert. Allerdings identifizieren wir ein optimales Budget für Denk-Tokens von etwa 4K, jenseits dessen die Leistung aufgrund von „Überdenken“ abnehmen kann. Budget Forcing, das die Test-Time-Berechnung durch iterative Prompts erweitert, hilft Modellen, Antworten zu überprüfen, verbessert jedoch nicht zwangsläufig die Gesamtleistung bei medizinischen Fragen und führt in einigen Fällen sogar Fehler in zuvor korrekte Antworten ein. Unsere Fall-für-Fall-Analyse identifiziert unzureichendes medizinisches Wissen als einen zentralen Engpass, der weitere Leistungssteigerungen durch Test-Time Scaling verhindert. Wir stellen fest, dass die Erhöhung der Datenmenge, die Verbesserung der Datenqualität und die Erweiterung der Modellkapazität die Verankerung medizinischen Wissens konsequent verbessern und damit kontinuierliche Leistungssteigerungen ermöglichen, insbesondere bei anspruchsvollen medizinischen Benchmarks, bei denen kleinere Modelle an ihre Grenzen stoßen. Diese Erkenntnisse unterstreichen grundlegende Unterschiede zwischen medizinischem und mathematischem Denken in LLMs und zeigen, dass angereichertes medizinisches Wissen, mehr als nur eine erhöhte Denktiefe, entscheidend ist, um die Vorteile von Test-Time Scaling zu realisieren.
Die Skalierung zur Inferenzzeit kann die Fähigkeiten großer Sprachmodelle (LLMs) zur Lösung komplexer Probleme, die von einer schrittweisen Problemlösung profitieren, verbessern. Obwohl die Verlängerung generierter Notizen sich bei mathematischen Aufgaben als effektiv erwiesen hat, bleibt die breitere Wirkung dieses Ansatzes auf andere Aufgaben weniger klar. In dieser Arbeit untersuchen wir die Vorteile und Grenzen von Skalierungsmethoden anhand von neun modernsten Modellen und acht anspruchsvollen Aufgaben, darunter mathematisches und STEM-basiertes Denken, Kalenderplanung, NP-schwere Probleme, Navigation und räumliches Denken. Wir vergleichen konventionelle Modelle (z. B. GPT-4o) mit Modellen, die für die Skalierung zur Inferenzzeit feinabgestimmt wurden (z. B. o1), durch Evaluationsprotokolle, die wiederholte Modellaufrufe beinhalten, entweder unabhängig oder sequenziell mit Feedback. Diese Bewertungen nähern sich unteren und oberen Leistungsgrenzen sowie dem Potenzial für zukünftige Leistungsverbesserungen für jedes Modell an, sei es durch verbessertes Training oder Multi-Modell-Inferenzsysteme. Unsere umfangreiche empirische Analyse zeigt, dass die Vorteile der Skalierung zur Inferenzzeit je nach Aufgabe variieren und mit zunehmender Problemkomplexität abnehmen. Darüber hinaus führt die bloße Verwendung von mehr Tokens nicht zwangsläufig zu einer höheren Genauigkeit in diesen anspruchsvollen Bereichen. Ergebnisse aus mehreren unabhängigen Durchläufen mit konventionellen Modellen unter Verwendung perfekter Verifizierer zeigen, dass diese Modelle bei einigen Aufgaben eine Leistung erzielen können, die der durchschnittlichen Leistung der heutigen fortschrittlichsten Denkmodelle nahekommt. Bei anderen Aufgaben bleibt jedoch eine erhebliche Leistungslücke bestehen, selbst in sehr hohen Skalierungsbereichen. Ermutigenderweise zeigen alle Modelle signifikante Verbesserungen, wenn die Inferenz mit perfekten Verifizierern oder starkem Feedback weiter skaliert wird, was auf ein beträchtliches Potenzial für zukünftige Verbesserungen hindeutet.
Text-to-SQL ist eine anspruchsvolle Aufgabe, die mehrere reasoning-intensive Teilaufgaben umfasst, darunter das Verständnis natürlicher Sprache, das Erfassen von Datenbankschemata und die präzise Formulierung von SQL-Abfragen. Bestehende Ansätze verlassen sich oft auf handgefertigte Reasoning-Pfade mit induktiven Verzerrungen, die ihre Gesamteffektivität einschränken können. Motiviert durch den jüngsten Erfolg von Reasoning-verstärkten Modellen wie DeepSeek R1 und OpenAI o1, die belohnungsgesteuerte Selbsterkundung effektiv nutzen, um Reasoning-Fähigkeiten und Generalisierung zu verbessern, schlagen wir einen neuartigen Satz von Teilbelohnungen vor, die speziell für die Text-to-SQL-Aufgabe entwickelt wurden. Unser Belohnungssatz umfasst Schema-Linking, KI-Feedback, N-Gram-Ähnlichkeit und Syntaxprüfung, die explizit darauf abzielen, das Problem der Belohnungssparsamkeit im Reinforcement Learning (RL) zu adressieren. Durch die Nutzung von Group Relative Policy Optimization (GRPO) fördert unser Ansatz explizit die Entwicklung intrinsischer Reasoning-Fähigkeiten, die für die präzise Generierung von SQL-Abfragen durch große Sprachmodelle (LLMs) notwendig sind. Mit Modellen unterschiedlicher Größe zeigen wir, dass RL-only-Training mit unseren vorgeschlagenen Belohnungen durchweg höhere Genauigkeit und überlegene Generalisierung im Vergleich zum Supervised Fine-Tuning (SFT) erreicht. Bemerkenswerterweise übertrifft unser RL-trainiertes 14B-Parameter-Modell größere proprietäre Modelle, z.B. o3-mini um 4 % und Gemini-1.5-Pro-002 um 3 % auf dem BIRD-Benchmark. Diese Ergebnisse unterstreichen die Wirksamkeit unseres vorgeschlagenen RL-Trainingsframeworks mit Teilbelohnungen zur Steigerung sowohl der Genauigkeit als auch der Reasoning-Fähigkeiten in Text-to-SQL-Aufgaben.
Lucas Ventura, Antoine Yang, Cordelia Schmid, Gül Varol
72
Wir befassen uns mit der Aufgabe der Video-Kapitelung, d.h. der Unterteilung einer langen Videotimeline in semantische Einheiten und der Generierung entsprechender Kapitelüberschriften. Obwohl bisher relativ wenig erforscht, hat die automatische Kapitelung das Potenzial, eine effiziente Navigation und Inhaltsabfrage in langen Videos zu ermöglichen. In diesem Artikel erreichen wir eine starke Kapitelungsleistung bei stundenlangen Videos, indem wir das Problem effizient im Textbereich mit unserem 'Chapter-Llama'-Framework angehen. Konkret nutzen wir ein vortrainiertes großes Sprachmodell (LLM) mit einem großen Kontextfenster und geben als Eingabe (i) Sprachtranskripte und (ii) Beschreibungen von Videobildern zusammen mit ihren jeweiligen Zeitstempeln ein. Angesichts der Ineffizienz, alle Bilder erschöpfend zu beschriften, schlagen wir eine leichtgewichtige, sprachgesteuerte Bildauswahlstrategie basierend auf dem Inhalt der Sprachtranskripte vor und zeigen experimentell bemerkenswerte Vorteile. Wir trainieren das LLM, Zeitstempel für die Kapitelgrenzen sowie freiformulierte Kapitelüberschriften auszugeben. Dieser einfache, aber leistungsstarke Ansatz skaliert auf die Verarbeitung einstündiger Videos in einem einzigen Vorwärtsdurchlauf. Unsere Ergebnisse zeigen erhebliche Verbesserungen (z.B. 45,3 vs. 26,7 F1-Score) gegenüber dem Stand der Technik auf dem kürzlich veröffentlichten VidChapters-7M-Benchmark. Um die weitere Forschung zu fördern, veröffentlichen wir unseren Code und unsere Modelle auf unserer Projektseite.
Große Sprachmodelle (LLMs) verfügen über beeindruckende linguistische Fähigkeiten, scheitern jedoch oft daran, faktisches Wissen zuverlässig zu bewahren, was zu Halluzinationen und unzuverlässigen Ausgaben führt. Das Verständnis der Wissensdefizite von LLMs durch eine erschöpfende Bewertung gegen umfangreiche Wissensbasen ist rechnerisch unerschwinglich, insbesondere für Modelle mit geschlossenen Gewichten. Wir schlagen stochastischen Fehleranstieg (SEA) vor, ein skalierbares und effizientes Framework zur Entdeckung von Wissensdefiziten (Fehlern) in geschlossenen LLMs unter einem strengen Abfragebudget. Anstatt alle Wissenskandidaten naiv zu testen, formuliert SEA die Fehlerentdeckung als einen stochastischen Optimierungsprozess: Es ruft iterativ neue Kandidaten mit hohen Fehlerraten ab, indem es die semantische Ähnlichkeit zu zuvor beobachteten Fehlern nutzt. Um die Such effizienz und Abdeckung weiter zu verbessern, setzt SEA hierarchische Abrufe auf Dokument- und Absatzebene ein und konstruiert einen relationellen gerichteten azyklischen Graphen, um die Fehlerausbreitung zu modellieren und systematische Fehlermodi zu identifizieren. Empirisch deckt SEA 40,7-mal mehr Wissensfehler auf als Automated Capability Discovery und 26,7 % mehr als AutoBencher, während die Kosten pro Fehler um das 599-fache bzw. 9-fache reduziert werden. Die menschliche Bewertung bestätigt die hohe Qualität der generierten Fragen, während Ablations- und Konvergenzanalysen den Beitrag jeder Komponente in SEA validieren. Eine weitere Analyse der entdeckten Fehler zeigt korrelierte Fehlermuster über LLM-Familien hinweg und wiederkehrende Defizite, was die Notwendigkeit einer besseren Datenabdeckung und gezielten Feinabstimmung in der zukünftigen LLM-Entwicklung unterstreicht.
Menschliche Hände spielen eine zentrale Rolle bei der Interaktion, was zunehmende Forschung in der geschickten robotischen Manipulation motiviert. Datengetriebene embodied AI-Algorithmen erfordern präzise, groß angelegte, menschenähnliche Manipulationssequenzen, die mit herkömmlichem Reinforcement Learning oder Teleoperation in der realen Welt schwer zu erhalten sind. Um dies zu adressieren, stellen wir ManipTrans vor, eine neuartige zweistufige Methode zur effizienten Übertragung menschlicher bimanueller Fähigkeiten auf geschickte Roboterhände in der Simulation. ManipTrans trainiert zunächst einen generalistischen Trajektorienimitator, um Handbewegungen nachzuahmen, und feintunt dann ein spezifisches Residualmodul unter Interaktionsbedingungen, was effizientes Lernen und präzise Ausführung komplexer bimanueller Aufgaben ermöglicht. Experimente zeigen, dass ManipTrans state-of-the-art Methoden in Bezug auf Erfolgsrate, Treue und Effizienz übertrifft. Durch die Nutzung von ManipTrans übertragen wir mehrere Hand-Objekt-Datensätze auf Roboterhände und erstellen DexManipNet, einen groß angelegten Datensatz, der bisher unerforschte Aufgaben wie das Verschließen von Stiften und das Öffnen von Flaschen umfasst. DexManipNet besteht aus 3.3K Episoden robotischer Manipulation und ist leicht erweiterbar, was die weitere Politikschulung für geschickte Hände erleichtert und den Einsatz in der realen Welt ermöglicht.
Die Rekonstruktion scharfer 3D-Darstellungen aus unscharfen Multi-View-Bildern ist ein langjähriges Problem in der Computer Vision. Aktuelle Arbeiten versuchen, die hochwertige Synthese neuer Ansichten aus Bewegungsunschärfe zu verbessern, indem sie Event-basierte Kameras nutzen, die von einem hohen Dynamikumfang und einer Mikrosekunden-temporalen Auflösung profitieren. Allerdings erreichen sie oft eine suboptimale visuelle Qualität, entweder durch die Wiederherstellung ungenauer Farben oder den Verlust feiner Details. In diesem Artikel präsentieren wir DiET-GS, ein Diffusions-Prior- und Event-Stream-unterstütztes Bewegungsentrauschungs-3DGS. Unser Framework nutzt effektiv sowohl scharfe Event-Streams als auch einen Diffusions-Prior in einer zweistufigen Trainingsstrategie. Insbesondere führen wir ein neuartiges Framework ein, das 3DGS mit einer Event-Doppelintegration einschränkt, um sowohl genaue Farben als auch gut definierte Details zu erreichen. Zusätzlich schlagen wir eine einfache Technik vor, um den Diffusions-Prior zu nutzen und die Kantendetails weiter zu verbessern. Qualitative und quantitative Ergebnisse sowohl auf synthetischen als auch realen Daten zeigen, dass unser DiET-GS in der Lage ist, deutlich bessere Qualitäten neuer Ansichten im Vergleich zu den bestehenden Baselines zu erzeugen. Unsere Projektseite ist https://diet-gs.github.io.
Wir schlagen ein einheitliches Framework vor, das Objekterkennung (OD) und visuelle Verankerung (VG) für Fernerkundungsbilder (RS) integriert. Um die konventionelle OD zu unterstützen und eine intuitive Priorität für die VG-Aufgabe zu schaffen, feintunen wir einen Open-Set-Objektdetektor mit Referenzausdrucksdaten und formulieren dies als eine teilweise überwachte OD-Aufgabe. In der ersten Stufe konstruieren wir eine Graph-Darstellung jedes Bildes, die Objektanfragen, Klassen-Einbettungen und Vorschlagsorte umfasst. Anschließend verarbeitet unsere aufgabenbewusste Architektur diesen Graphen, um die VG-Aufgabe durchzuführen. Das Modell besteht aus: (i) einem Multi-Branch-Netzwerk, das räumliche, visuelle und kategoriale Merkmale integriert, um aufgabenbewusste Vorschläge zu generieren, und (ii) einem Objektbegründungsnetzwerk, das Wahrscheinlichkeiten über Vorschläge verteilt, gefolgt von einem Soft-Selection-Mechanismus für die endgültige Lokalisierung des referenzierten Objekts. Unser Modell zeigt eine überlegene Leistung auf den Datensätzen OPT-RSVG und DIOR-RSVG und erzielt signifikante Verbesserungen gegenüber state-of-the-art Methoden, während es gleichzeitig klassische OD-Fähigkeiten beibehält. Der Code wird in unserem Repository verfügbar sein: https://github.com/rd20karim/MB-ORES.