Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Die Ermöglichung von LLMs, ihre Ausgaben durch eine erhöhte Testzeitberechnung zu verbessern, ist ein entscheidender Schritt hin zur Entwicklung allgemein selbstverbessernder Agenten, die in der Lage sind, in offenen natürlichen Sprachen zu operieren. In diesem Papier untersuchen wir das Skalieren der Inferenzzeitberechnung in LLMs mit dem Schwerpunkt auf der Beantwortung der Frage: Wenn einem LLM erlaubt wird, eine feste, aber nicht triviale Menge an Inferenzzeitberechnung zu nutzen, wie sehr kann es seine Leistung bei einer anspruchsvollen Eingabe verbessern? Die Beantwortung dieser Frage hat Auswirkungen nicht nur auf die erreichbare Leistung von LLMs, sondern auch auf die Zukunft des LLM-Vortrainings und wie man den Kompromiss zwischen Inferenzzeit- und Vor-Trainingsberechnung gestalten sollte. Trotz ihrer Bedeutung hat sich bisher wenig Forschung damit beschäftigt, das Skalierungsverhalten verschiedener Testzeit-Inferenzmethoden zu verstehen. Darüber hinaus liefert die aktuelle Arbeit größtenteils negative Ergebnisse für eine Reihe dieser Strategien. In dieser Arbeit analysieren wir zwei Hauptmechanismen zur Skalierung der Testzeitberechnung: (1) die Suche gegen dichte, prozessbasierte Verifizierungsbelohnungsmodelle; und (2) die Anpassung der Verteilung des Modells über eine Antwort adaptiv, basierend auf der Eingabe zur Testzeit. Wir stellen fest, dass in beiden Fällen die Wirksamkeit verschiedener Ansätze zur Skalierung der Testzeitberechnung entscheidend von der Schwierigkeit der Eingabe abhängt. Diese Beobachtung motiviert die Anwendung einer "rechenoptimalen" Skalierungsstrategie, die am effektivsten die Testzeitberechnung adaptiv pro Eingabe zuweist. Durch die Verwendung dieser rechenoptimalen Strategie können wir die Effizienz der Skalierung der Testzeitberechnung um mehr als das 4-fache im Vergleich zu einem Best-of-N-Baseline verbessern. Darüber hinaus stellen wir in einer FLOPs-angepassten Bewertung fest, dass bei Problemen, bei denen ein kleineres Basismodell etwas nicht triviale Erfolgsraten erreicht, die Testzeitberechnung verwendet werden kann, um ein 14-fach größeres Modell zu übertreffen.
Die Fähigkeit, mehrere Bilder zu verarbeiten, ist entscheidend für Large Vision-Language Models (LVLMs), um ein gründlicheres und nuancierteres Verständnis einer Szene zu entwickeln. Kürzlich haben Multi-Image LVLMs begonnen, auf diese Anforderung einzugehen. Allerdings ist ihre Bewertung mit ihrer Entwicklung nicht Schritt gehalten. Um diese Lücke zu schließen, führen wir das Multimodal Multi-image Understanding (MMIU) Benchmark ein, eine umfassende Bewertungssuite, die entwickelt wurde, um LVLMs über eine Vielzahl von Multi-Image-Aufgaben zu bewerten. MMIU umfasst 7 Arten von Multi-Image-Beziehungen, 52 Aufgaben, 77.000 Bilder und 11.000 sorgfältig kuratierte Multiple-Choice-Fragen, was es zum umfangreichsten Benchmark seiner Art macht. Unsere Bewertung von 24 beliebten LVLMs, einschließlich sowohl Open-Source als auch proprietärer Modelle, zeigt signifikante Herausforderungen bei der Multi-Image-Verständnis, insbesondere bei Aufgaben, die räumliches Verständnis erfordern. Selbst die fortschrittlichsten Modelle, wie z.B. GPT-4o, erreichen nur eine Genauigkeit von 55,7% bei MMIU. Durch vielschichtige analytische Experimente identifizieren wir Schlüsselleistungsunterschiede und -beschränkungen und liefern wertvolle Erkenntnisse für zukünftige Modell- und Datenverbesserungen. Wir streben danach, dass MMIU die Grenzen der LVLM-Forschung und -entwicklung vorantreibt und uns auf dem Weg zu anspruchsvollen multimodalen Multi-Image-Benutzerinteraktionen voranbringt.
Wir präsentieren LLaVA-OneVision, eine Familie offener großer multimodaler Modelle (LMMs), die durch die Konsolidierung unserer Erkenntnisse zu Daten, Modellen und visuellen Darstellungen in der LLaVA-NeXT-Blogserie entwickelt wurden. Unsere experimentellen Ergebnisse zeigen, dass LLaVA-OneVision das erste einzelne Modell ist, das gleichzeitig die Leistungsgrenzen offener LMMs in drei wichtigen Szenarien der Computer Vision erweitern kann: Einzelbild-, Mehrbild- und Videoszenarien. Die Gestaltung von LLaVA-OneVision ermöglicht insbesondere starkes Transferlernen über verschiedene Modalitäten/Szenarien hinweg, was zu neuen aufkommenden Fähigkeiten führt. Insbesondere werden starke Videoverständnis- und Cross-Szenario-Fähigkeiten durch die Aufgabentransfer von Bildern auf Videos demonstriert.
Wir stellen einen neuen Ansatz zur Generierung realistischer 3D-Modelle mit UV-Maps vor, der durch eine Darstellung namens "Objektbilder" realisiert wird. Dieser Ansatz umfasst Oberflächengeometrie, Erscheinungsbild und Patch-Strukturen innerhalb eines 64x64 Pixelbildes und wandelt komplexe 3D-Formen effektiv in ein handlicheres 2D-Format um. Dadurch werden die Herausforderungen sowohl geometrischer als auch semantischer Unregelmäßigkeiten, die in polygonalen Netzen inhärent sind, bewältigt. Diese Methode ermöglicht es uns, Bildgenerierungsmodelle wie Diffusion Transformers direkt für die Generierung von 3D-Formen zu verwenden. Anhand des ABO-Datensatzes erzielen unsere generierten Formen mit Patch-Strukturen eine Punktwolken-FID, die mit aktuellen 3D-generativen Modellen vergleichbar ist, und unterstützen gleichzeitig die natürliche Generierung von PBR-Material.
Dieses Papier stellt MedTrinity-25M vor, ein umfassendes, groß angelegtes multimodales Datenset für die Medizin, das über 25 Millionen Bilder in 10 Modalitäten umfasst, mit multigranularen Annotationen für mehr als 65 Krankheiten. Diese angereicherten Annotationen umfassen sowohl globale textuelle Informationen wie Krankheits-/Läsionstyp, Modalität, regionspezifische Beschreibungen und interregionale Beziehungen als auch detaillierte lokale Annotationen für Regionen von Interesse (ROIs), einschließlich Bounding-Boxen und Segmentierungsmasken. Im Gegensatz zu bestehenden Ansätzen, die durch die Verfügbarkeit von Bild-Text-Paaren eingeschränkt sind, haben wir die erste automatisierte Pipeline entwickelt, die multimodale Daten durch die Generierung multigranularer visueller und textueller Annotationen (in Form von Bild-ROI-Beschreibungs-Triplets) ohne die Notwendigkeit von gepaarten Textbeschreibungen skalieren kann. Speziell wurden Daten aus über 90 verschiedenen Quellen gesammelt, vorverarbeitet und mithilfe domänenspezifischer Expertenmodelle verankert, um ROIs in Bezug auf abnormale Regionen zu identifizieren. Anschließend bauen wir eine umfassende Wissensbasis auf und fordern multimodale große Sprachmodelle auf, eine abrufgestützte Generierung mit den identifizierten ROIs als Leitfaden durchzuführen, was zu multigranularen textuellen Beschreibungen führt. Im Vergleich zu bestehenden Datensets bietet MedTrinity-25M die umfangreichsten Annotationen, die eine breite Palette von multimodalen Aufgaben wie Bildunterschriften und Berichterstellung sowie visionäre Aufgaben wie Klassifizierung und Segmentierung unterstützen. Durch das Pretraining auf MedTrinity-25M erreicht unser Modell eine Spitzenleistung bei VQA-RAD und PathVQA, wobei sowohl multimodale große Sprachmodelle als auch andere repräsentative State-of-the-Art-Ansätze übertroffen werden. Dieses Datenset kann auch zur Unterstützung des groß angelegten Pretrainings multimodaler medizinischer KI-Modelle genutzt werden und trägt zur Entwicklung zukünftiger Grundlagenmodelle im medizinischen Bereich bei.
Diffusionsmodelle stoßen kontinuierlich an die Grenze der modernsten Bildgenerierung, aber der Prozess ist schwer mit Feinheiten zu kontrollieren: Die Praxis zeigt, dass textuelle Hinweise unzureichend sind, um den Bildstil oder feine strukturelle Details (wie Gesichter) genau zu beschreiben. ControlNet und IPAdapter beheben diese Schwäche, indem sie den generativen Prozess stattdessen auf Bildmaterial konditionieren, jedoch ist jedes einzelne Exemplar auf die Modellierung eines einzelnen bedingten Posteriors beschränkt: Für praktische Anwendungsfälle, in denen mehrere verschiedene Posteriors im selben Arbeitsablauf gewünscht sind, ist das Training und die Verwendung mehrerer Adapter umständlich. Wir schlagen IPAdapter-Instruct vor, der die Konditionierung auf natürliche Bilder mit "Instruct"-Hinweisen kombiniert, um zwischen Interpretationen für dasselbe konditionierte Bild zu wechseln: Stiltransfer, Objektauswahl, beides oder etwas anderes noch? IPAdapterInstruct lernt effizient mehrere Aufgaben mit minimalem Qualitätsverlust im Vergleich zu dedizierten pro-Aufgaben-Modellen.
Es gibt eine wachsende Reihe von Forschungsarbeiten zur Überprüfung der Korrektheit von Sprachmodellen. Gleichzeitig werden Sprachmodelle eingesetzt, um komplexe Anfragen zu bearbeiten, die logisches Denken erfordern. Wir stellen CoverBench vor, einen anspruchsvollen Benchmark, der sich auf die Überprüfung von Sprachmodellausgaben in komplexen Denkszenarien konzentriert. Datensätze, die zu diesem Zweck verwendet werden können, sind oft für andere komplexe Denkaufgaben (z. B. QA) konzipiert, die spezifische Anwendungsfälle (z. B. Finanztabelle) ansprechen. Dies erfordert Transformationen, negatives Sampling und die Auswahl schwieriger Beispiele, um einen solchen Benchmark zu erstellen. CoverBench bietet eine vielfältige Bewertung für die Überprüfung von komplexen Behauptungen in verschiedenen Bereichen, Arten des Denkens, relativ langen Eingaben und verschiedenen Standardisierungen, wie z. B. mehrere Darstellungen für Tabellen, sofern verfügbar, und ein konsistentes Schema. Wir überprüfen die Daten manuell auf Qualität, um niedrige Ebenen von Labelrauschen sicherzustellen. Abschließend präsentieren wir eine Vielzahl von wettbewerbsfähigen Baseline-Ergebnissen, um zu zeigen, dass CoverBench anspruchsvoll ist und über ein sehr signifikantes Verbesserungspotenzial verfügt. Die Daten sind unter https://huggingface.co/datasets/google/coverbench verfügbar.
Dieses Papier zeigt auf, wie generative Modelle, die für die Bildsynthese trainiert wurden, als Werkzeuge für das visuelle Daten-Mining eingesetzt werden können. Unsere Erkenntnis besteht darin, dass zeitgenössische generative Modelle eine genaue Darstellung ihrer Trainingsdaten erlernen, und wir sie daher nutzen können, um die Daten zu summarisieren, indem wir nach visuellen Mustern suchen. Konkret zeigen wir, dass wir nach Feinabstimmung von bedingten Diffusionsmodellen zur Synthese von Bildern aus einem bestimmten Datensatz diese Modelle verwenden können, um ein typisches Maß für diesen Datensatz zu definieren. Dieses Maß bewertet, wie typisch visuelle Elemente für verschiedene Datenetiketten sind, wie z.B. geografischer Standort, Zeitstempel, semantische Etiketten oder sogar das Vorhandensein einer Krankheit. Dieser Analyse-durch-Synthese-Ansatz für das Daten-Mining hat zwei wesentliche Vorteile. Erstens skaliert er viel besser als traditionelle korrespondenzbasierte Ansätze, da er nicht erfordert, explizit alle Paare von visuellen Elementen zu vergleichen. Zweitens, während die meisten früheren Arbeiten zum visuellen Daten-Mining sich auf einen einzigen Datensatz konzentrieren, funktioniert unser Ansatz mit vielfältigen Datensätzen in Bezug auf Inhalt und Umfang, einschließlich eines historischen Autodatensatzes, eines historischen Gesichtsdatensatzes, eines großen weltweiten Straßenansichtdatensatzes und eines noch größeren Szenendatensatzes. Darüber hinaus ermöglicht unser Ansatz die Übersetzung von visuellen Elementen über Klassenetiketten hinweg und die Analyse konsistenter Veränderungen.
Das Synchronisieren von Lippenbewegungen in Videos mit vorgegebenem Audio bildet die Grundlage für verschiedene Anwendungen, darunter die Erstellung virtueller Moderatoren oder Künstler. Während aktuelle Studien hochwertige Lippen-Synchronisation mit verschiedenen Techniken untersuchen, erfordern ihre aufgabenorientierten Modelle entweder langfristige Videos für clip-spezifisches Training oder weisen sichtbare Artefakte auf. In diesem Paper schlagen wir ein einheitliches und effektives Framework namens ReSyncer vor, das generalisierte audiovisuelle Gesichtsinformationen synchronisiert. Der Schlüsselansatz besteht darin, den Style-basierten Generator zu überarbeiten und neu zu verknüpfen, um die 3D-Gesichtsdynamik effizient anzunehmen, die von einem fundierten Style-injected Transformer vorhergesagt wird. Durch einfaches Neukonfigurieren der Informations-Einfügungsmechanismen im Rausch- und Style-Raum fusioniert unser Framework Bewegung und Erscheinungsbild mit vereinter Schulung. Umfangreiche Experimente zeigen, dass ReSyncer nicht nur hochwertige lippen-synchrone Videos gemäß Audio produziert, sondern auch mehrere ansprechende Eigenschaften unterstützt, die für die Erstellung virtueller Moderatoren und Künstler geeignet sind, darunter schnelles personalisiertes Feintuning, video-gesteuerte Lippen-Synchronisation, die Übertragung von Sprechstilen und sogar Gesichtsaustausch. Ressourcen sind unter https://guanjz20.github.io/projects/ReSyncer verfügbar.
Die Evaluation ist der Taktstock für die Entwicklung großer Sprachmodelle. Gegenwärtige Bewertungen verwenden in der Regel ein Einzelitem-Bewertungsparadigma für jedes atomare Testziel, das Schwierigkeiten hat zu erkennen, ob ein Modell tatsächlich über die erforderlichen Fähigkeiten verfügt oder einfach nur Antworten auf spezifische Fragen auswendig lernt/rät. Zu diesem Zweck schlagen wir ein neuartiges Bewertungsrahmenwerk namens StructEval vor. Ausgehend von einem atomaren Testziel vertieft und erweitert StructEval die Bewertung durch eine strukturierte Bewertung über mehrere kognitive Ebenen und wichtige Konzepte hinweg und bietet somit eine umfassende, robuste und konsistente Bewertung für große Sprachmodelle. Experimente an drei weit verbreiteten Benchmarks zeigen, dass StructEval als zuverlässiges Werkzeug dient, um das Risiko einer Datenkontamination zu bekämpfen und die Störung potenzieller Voreingenommenheiten zu reduzieren, wodurch zuverlässigere und konsistentere Schlussfolgerungen hinsichtlich der Modellfähigkeiten gezogen werden können. Unser Rahmenwerk wirft auch Licht auf die Gestaltung zukünftiger fundierter und vertrauenswürdiger Bewertungsprotokolle für große Sprachmodelle.
Die Fähigkeitslücke zwischen Open-Source- und Closed-Source-großen Sprachmodellen (LLMs) bleibt eine Herausforderung bei Text-zu-SQL-Aufgaben. In diesem Artikel stellen wir einen synthetischen Datenansatz vor, der Daten kombiniert, die von größeren, leistungsstärkeren Modellen (starken Modellen) produziert wurden, mit Fehlerinformationsdaten, die von kleineren, nicht gut ausgerichteten Modellen (schwachen Modellen) generiert wurden. Die Methode verbessert nicht nur die Domänengeneralisierung von Text-zu-SQL-Modellen, sondern erforscht auch das Potenzial der Fehlervorlagedaten durch Präferenzlernen. Darüber hinaus verwenden wir den synthetischen Datenansatz für die Anweisungsabstimmung bei Open-Source-LLMs und erhalten SENSE, ein spezialisiertes Text-zu-SQL-Modell. Die Wirksamkeit von SENSE wird durch erstklassige Ergebnisse auf den SPIDER- und BIRD-Benchmarks demonstriert, wodurch die Leistungslücke zwischen Open-Source-Modellen und Methoden, die durch Closed-Source-Modelle angeregt wurden, überbrückt wird.
In letzter Zeit haben transformerbasierte Modelle eine bemerkenswerte Leistung bei Audio-Visual Segmentation (AVS) Aufgaben gezeigt. Ihre hohe Rechenkosten machen jedoch eine Echtzeit-Inferenz unpraktisch. Durch die Charakterisierung der Aufmerksamkeitskarten des Netzwerks identifizieren wir zwei Hauptprobleme bei AVS-Modellen: 1) Aufmerksamkeitsdissipation, die den überkonzentrierten Aufmerksamkeitsgewichten durch Softmax innerhalb begrenzter Rahmen entspricht, und 2) ineffizienter, belastender Transformer-Decoder, verursacht durch enge Fokuspunktmuster in frühen Stadien. In diesem Artikel stellen wir AVESFormer vor, den ersten Echtzeit-Audio-Visuellen Effizienten Segmentierungs-Transformer, der gleichzeitig schnell, effizient und leichtgewichtig ist. Unser Modell nutzt einen effizienten Prompt-Abfragegenerator, um das Verhalten der Kreuz-Aufmerksamkeit zu korrigieren. Darüber hinaus schlagen wir den ELF-Decoder vor, um eine größere Effizienz zu erzielen, indem wir Faltungen vorschlagen, die für lokale Merkmale geeignet sind, um die Rechenlast zu reduzieren. Umfangreiche Experimente zeigen, dass unser AVESFormer die Modellleistung signifikant verbessert und 79,9% auf S4, 57,9% auf MS3 und 31,2% auf AVSS erreicht, wodurch frühere State-of-the-Art-Modelle übertroffen werden und ein ausgezeichnetes Gleichgewicht zwischen Leistung und Geschwindigkeit erzielt wird. Der Code ist unter https://github.com/MarkXCloud/AVESFormer.git verfügbar.