Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir präsentieren StdGEN, eine innovative Pipeline zur Generierung semantisch zerlegter hochwertiger 3D-Charaktere aus Einzelbildern, die breite Anwendungen in Virtual Reality, Gaming und Filmproduktion ermöglicht. Im Gegensatz zu früheren Methoden, die mit begrenzter Zerlegbarkeit, unbefriedigender Qualität und langen Optimierungszeiten zu kämpfen haben, zeichnet sich StdGEN durch Zerlegbarkeit, Effektivität und Effizienz aus. Es generiert detaillierte 3D-Charaktere mit separierten semantischen Komponenten wie Körper, Kleidung und Haaren in drei Minuten. Im Kern von StdGEN steht unser vorgeschlagenes semantikbewusstes großflächiges Rekonstruktionsmodell (S-LRM), ein auf Transformer basierendes generalisierbares Modell, das Geometrie, Farbe und Semantik aus Mehrbildansichten auf feed-forward Art und Weise gemeinsam rekonstruiert. Ein differenzierbarer mehrschichtiger semantischer Oberflächenextraktionsschema wird eingeführt, um Meshes aus hybriden impliziten Feldern zu erhalten, die von unserem S-LRM rekonstruiert wurden. Darüber hinaus sind ein spezialisiertes effizientes Mehrbild-Diffusionsmodell und ein iteratives mehrschichtiges Oberflächenverfeinerungsmodul in die Pipeline integriert, um die Generierung hochwertiger, zerlegbarer 3D-Charaktere zu erleichtern. Umfangreiche Experimente zeigen unsere Spitzenleistung bei der Generierung von 3D-Anime-Charakteren, wobei wir bestehende Baselines in Geometrie, Textur und Zerlegbarkeit deutlich übertreffen. StdGEN bietet sofort einsatzbereite semantisch zerlegte 3D-Charaktere und ermöglicht eine flexible Anpassung für eine Vielzahl von Anwendungen. Projektseite: https://stdgen.github.io
CLIP ist eines der wichtigsten multimodalen Grundlagenmodelle heute. Was treibt die Fähigkeiten von CLIP an? Die reichen Überwachungssignale, die durch natürliche Sprache bereitgestellt werden, dem Träger menschlichen Wissens, formen einen leistungsstarken kreuzmodalen Darstellungsraum. Mit den raschen Fortschritten bei großen Sprachmodellen wie GPT-4 und LLaMA werden jedoch die Grenzen des Sprachverständnisses und der -erzeugung kontinuierlich erweitert. Dies wirft eine faszinierende Frage auf: Können die Fähigkeiten von Sprachmodellen genutzt werden, um die multimodale Darstellungslernfähigkeit weiter zu verbessern? Die potenziellen Vorteile der Einbeziehung von Sprachmodellen in CLIP sind klar. Das starke textuelle Verständnis von Sprachmodellen kann die Fähigkeit von CLIP, Bildunterschriften zu verarbeiten, grundlegend verbessern und somit seine Fähigkeit zur Verarbeitung langer und komplexer Texte, eine bekannte Einschränkung von Vanilla CLIP, drastisch verbessern. Darüber hinaus werden Sprachmodelle auf einem umfangreichen Textkorpus trainiert, der über Weltwissen verfügt. Dies ermöglicht es ihnen, die Informationen der Bildunterschrift während des Trainings zu erweitern und die Effizienz des Lernprozesses zu steigern. In diesem Papier schlagen wir LLM2CLIP vor, einen neuartigen Ansatz, der die Kraft von Sprachmodellen nutzt, um das Potenzial von CLIP freizusetzen. Durch Feinabstimmung des Sprachmodells im Bereich der Bildunterschriften mit kontrastivem Lernen extrahieren wir seine textuellen Fähigkeiten in die Ausgabeeinbettungen und verbessern signifikant die textuelle Unterscheidbarkeit der Ausgabeebene. Anschließend entwerfen wir einen effizienten Schulungsprozess, bei dem das feinabgestimmte Sprachmodell als leistungsstarker Lehrer für den visuellen Encoder von CLIP fungiert. Dank der Anwesenheit des Sprachmodells können wir jetzt längere und komplexere Bildunterschriften einbeziehen, ohne durch die Kontextfenster- und Fähigkeitsbeschränkungen des Textencoders von Vanilla CLIP eingeschränkt zu sein. Unsere Experimente zeigen, dass dieser Ansatz signifikante Verbesserungen bei kreuzmodalen Aufgaben mit sich bringt.
Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten gezeigt, kämpfen jedoch immer noch mit komplexen Denkaufgaben, die mehrere Schritte erfordern. Während promptbasierte Methoden wie Chain-of-Thought (CoT) die Denkfähigkeit von LLMs zur Inferenzzeit verbessern können, bleibt die Optimierung der Denkfähigkeiten während des Trainings eine Herausforderung. Wir stellen LaTent Reasoning Optimization (LaTRO) vor, ein fundiertes Rahmenwerk, das Denken als Probenahme aus einer latenten Verteilung formuliert und es über variationale Ansätze optimiert. LaTRO ermöglicht es LLMs, sowohl ihren Denkprozess als auch ihre Fähigkeit zur Bewertung der Denkqualität gleichzeitig zu verbessern, ohne externe Rückmeldungen oder Belohnungsmodelle zu benötigen. Wir validieren LaTRO durch Experimente an den Datensätzen GSM8K und ARC-Challenge unter Verwendung mehrerer Modellarchitekturen. Auf GSM8K verbessert LaTRO die Nullschussgenauigkeit im Durchschnitt um 12,5% gegenüber Basismodellen und um 9,6% gegenüber überwachtem Feintuning bei Phi-3.5-mini, Mistral-7B und Llama-3.1-8B. Unsere Ergebnisse legen nahe, dass vorab trainierte LLMs latente Denkfähigkeiten besitzen, die durch unseren vorgeschlagenen Optimierungsansatz auf eine selbstverbessernde Weise freigesetzt und verbessert werden können. Der Code von LaTRO ist verfügbar unter https://github.com/SalesforceAIResearch/LaTRO.
Die Pipeline-Parallelität wird weitgehend verwendet, um das Training von auf Transformer basierenden großen Sprachmodellen zu skalieren. Es wurden verschiedene Arbeiten durchgeführt, um die Durchsatzleistung und den Speicherbedarf zu verbessern. In diesem Papier behandeln wir ein häufig übersehenes Problem: Die Vokabularschichten können eine unausgewogene Berechnung und Speichernutzung über die Pipeline-Stufen hinweg verursachen, was zu einer Verschlechterung der Pipeline-Blasen und des Speicherengpasses führt. Um dies zu bewältigen, partitionieren wir die Vokabularschichten gleichmäßig über die Pipeline-Geräte und gruppieren die Berechnung in Pipeline-Durchläufen. Zur Reduzierung des Aktivierungsspeicher-Overheads schlagen wir mehrere Algorithmen vor, um die Kommunikationsbarrieren innerhalb der Vokabularschichten zu reduzieren. Darüber hinaus verwenden wir eine verallgemeinerbare Methode, um die Vokabular-Parallelität mit bestehenden Pipeline-Zeitplänen zu integrieren. Durch die Kombination dieser Techniken balancieren unsere Methoden die Berechnung und den Parameter-Speicher effektiv aus, mit nur geringem konstanten Aktivierungsspeicher-Overhead. Insbesondere erreicht unser Ansatz in Kombination mit aktivierungsspeicher-ausgeglichenen Zeitplänen wie V-Half eine perfekte Balance sowohl im Speicher als auch in der Berechnung. Umfangreiche Evaluationen zeigen, dass unsere Methode eine Berechnungs- und Speicherbalance unabhängig von der Vokabulargröße erreicht, was zu einer Steigerung der Durchsatzleistung um 5 % bis 51 % im Vergleich zu naiven Ansätzen führt, wobei der Spitzen-Speicherverbrauch insbesondere bei Szenarien mit großem Vokabular signifikant reduziert wird. Unsere Implementierung ist unter https://github.com/sail-sg/VocabularyParallelism als Open Source verfügbar.
Das Feinabstimmen großer Sprachmodelle (LLMs) ist entscheidend, um ihre Leistung bei spezifischen Aufgaben zu verbessern, erfordert jedoch oft viele Ressourcen aufgrund redundanter oder uninformative Daten. Um diese Ineffizienz anzugehen, stellen wir DELIFT (Data Efficient Language model Instruction Fine-Tuning) vor, einen neuartigen Algorithmus, der die Datenauswahl systematisch über die drei Schlüsselstadien der Feinabstimmung optimiert: (1) Instruktionsabstimmung, (2) aufgabenspezifische Feinabstimmung (z. B. Schlussfolgerung, Fragebeantwortung) und (3) kontinuierliche Feinabstimmung (z. B. Integration neuer Datenversionen). Im Gegensatz zu bestehenden Methoden, die sich auf die Optimierung eines einzigen Stadiums konzentrieren oder auf rechenintensive Gradientenberechnungen angewiesen sind, arbeitet DELIFT effizient über alle Stadien hinweg. Zentral für unseren Ansatz ist eine paarweise Nutzmetrik, die quantifiziert, wie vorteilhaft eine Datenauswahl für die Verbesserung der Modellantworten auf andere Daten ist und somit den Informationswert im Verhältnis zu den aktuellen Fähigkeiten des Modells effektiv misst. Durch die Nutzung verschiedener submodularer Funktionen, die auf dieser Metrik angewendet werden, wählt DELIFT diverse und optimale Teilmengen aus, die in allen Stadien der Feinabstimmung nützlich sind. Experimente über verschiedene Aufgaben und Modellskalen zeigen, dass DELIFT die Größe der Feinabstimmungsdaten um bis zu 70 % reduzieren kann, ohne die Leistung zu beeinträchtigen, was erhebliche Recheneinsparungen bietet und bestehende Methoden sowohl in Effizienz als auch Wirksamkeit übertrifft.
Dieses Paper zielt darauf ab, ein vereinheitlichtes Computer-Aided Design (CAD) Generierungssystem zu entwerfen, das auf einfache Weise CAD-Modelle basierend auf den Benutzereingaben in Form von textueller Beschreibung, Bildern, Punktewolken oder sogar einer Kombination davon generieren kann. Zu diesem Zweck stellen wir das CAD-MLLM vor, das erste System, das in der Lage ist, parametrische CAD-Modelle zu generieren, abhängig von der multimodalen Eingabe. Innerhalb des CAD-MLLM-Frameworks nutzen wir die Befehlssequenzen von CAD-Modellen und setzen dann fortschrittliche große Sprachmodelle (LLMs) ein, um den Merkmalsraum über diese vielfältigen multimodalen Daten und vektorisierten Darstellungen von CAD-Modellen auszurichten. Um das Modelltraining zu erleichtern, entwerfen wir eine umfassende Datenkonstruktions- und Annotationspipeline, die jedes CAD-Modell mit entsprechenden multimodalen Daten ausstattet. Unser resultierender Datensatz, namens Omni-CAD, ist der erste multimodale CAD-Datensatz, der textuelle Beschreibungen, Mehransichtsbilder, Punkte und Befehlssequenzen für jedes CAD-Modell enthält. Er umfasst ungefähr 450.000 Instanzen und deren CAD-Konstruktionssequenzen. Um die Qualität unserer generierten CAD-Modelle gründlich zu bewerten, gehen wir über aktuelle Bewertungsmetriken hinaus, die sich auf die Rekonstruktionsqualität konzentrieren, indem wir zusätzliche Metriken einführen, die die Topologiequalität und den Oberflächenabschlussumfang bewerten. Umfangreiche experimentelle Ergebnisse zeigen, dass CAD-MLLM signifikant besser abschneidet als bestehende bedingte generative Methoden und weiterhin äußerst robust gegenüber Störungen und fehlenden Punkten bleibt. Die Projektseite und weitere Visualisierungen finden Sie unter: https://cad-mllm.github.io/
Das Aufkommen großer Sprachmodelle (LLMs) wie GitHub Copilot hat die Produktivität von Programmierern erheblich gesteigert, insbesondere bei der Codegenerierung. Diese Modelle haben jedoch oft Schwierigkeiten mit realen Aufgaben, ohne Feinabstimmung. Mit zunehmender Größe und Leistungsfähigkeit von LLMs wird die Feinabstimmung für spezialisierte Aufgaben immer teurer. Methoden zur parameter-effizienten Feinabstimmung (PEFT), die nur eine Teilmenge der Modellparameter feinabstimmen, bieten eine vielversprechende Lösung, indem sie die Rechenkosten für die Feinabstimmung von LLMs reduzieren, während sie deren Leistung beibehalten. Bisherige Studien haben die Verwendung von PEFT und LLMs für verschiedene codebezogene Aufgaben untersucht und festgestellt, dass die Effektivität von PEFT-Techniken auf die Aufgabe abhängt. Die Anwendung von PEFT-Techniken in der Generierung von Modultests ist noch wenig erforscht. Der Stand der Technik beschränkt sich auf die Verwendung von LLMs mit vollständiger Feinabstimmung zur Generierung von Modultests. Dieser Artikel untersucht sowohl vollständige Feinabstimmung als auch verschiedene PEFT-Methoden, einschließlich LoRA, (IA)^3 und Prompt-Feinabstimmung, über verschiedene Modellarchitekturen und -größen hinweg. Wir verwenden etablierte Benchmark-Datensätze, um ihre Effektivität bei der Generierung von Modultests zu bewerten. Unsere Ergebnisse zeigen, dass PEFT-Methoden eine Leistung liefern können, die der vollständigen Feinabstimmung bei der Generierung von Modultests vergleichbar ist, was spezialisierte Feinabstimmung zugänglicher und kosteneffektiver macht. Insbesondere ist die Prompt-Feinabstimmung in Bezug auf Kosten und Ressourcennutzung am effektivsten, während LoRA in mehreren Fällen die Effektivität der vollständigen Feinabstimmung erreicht.
Moderne Sprachmodelle können Eingaben in verschiedenen Sprachen und Modalitäten verarbeiten. Wir vermuten, dass Modelle diese Fähigkeit erlangen, indem sie einen gemeinsamen Repräsentationsraum über heterogene Datentypen (z. B. verschiedene Sprachen und Modalitäten) erlernen, der semantisch ähnliche Eingaben in der Nähe platziert, auch wenn sie aus unterschiedlichen Modalitäten/Sprachen stammen. Wir bezeichnen dies als die semantische Hub-Hypothese, die dem Hub-und-Speichen-Modell aus der Neurowissenschaft folgt (Patterson et al., 2007), das besagt, dass semantisches Wissen im menschlichen Gehirn durch einen transmodalen semantischen "Hub" organisiert ist, der Informationen aus verschiedenen modalitätsspezifischen "Speichen"-Regionen integriert. Wir zeigen zunächst, dass Modellrepräsentationen für semantisch äquivalente Eingaben in verschiedenen Sprachen in den Zwischenschichten ähnlich sind und dass dieser Raum mithilfe der vorherrschenden Vorsprache des Modells über die Logit-Linse interpretiert werden kann. Diese Tendenz erstreckt sich auf andere Datentypen, einschließlich arithmetischer Ausdrücke, Code und visueller/auditiver Eingaben. Interventionen im gemeinsamen Repräsentationsraum eines Datentyps beeinflussen auch vorhersehbar die Modellausgaben in anderen Datentypen, was darauf hindeutet, dass dieser gemeinsame Repräsentationsraum nicht einfach ein überbleibendes Nebenprodukt des groß angelegten Trainings an umfangreichen Daten ist, sondern etwas, das vom Modell aktiv während der Eingabeverarbeitung genutzt wird.
Feinabgestimmte Vision-Sprach-Modelle (VLMs) erfassen oft irreführende Korrelationen zwischen Bildmerkmalen und textuellen Attributen, was zu einer beeinträchtigten Nullschuss-Leistung zur Testzeit führt. Bestehende Ansätze zur Bewältigung irreführender Korrelationen (i) operieren hauptsächlich auf globaler Bild-Ebene anstatt direkt in feingranulierten Bildmerkmalen einzugreifen und (ii) sind hauptsächlich für unimodale Einstellungen konzipiert. In dieser Arbeit präsentieren wir RaVL, das eine feingranulierte Perspektive auf die Robustheit von VLMs einnimmt, indem es irreführende Korrelationen mithilfe lokaler Bildmerkmale entdeckt und abmildert, anstatt auf globaler Bildebene zu agieren. Unter Verwendung eines feinabgestimmten VLMs entdeckt RaVL zunächst irreführende Korrelationen, indem es einen regionsbasierten Clustering-Ansatz nutzt, um präzise Bildmerkmale zu identifizieren, die zu Fehlern bei der Nullschuss-Klassifizierung beitragen. Anschließend mildert RaVL die identifizierte irreführende Korrelation mit einer neuartigen regionsbewussten Verlustfunktion, die es dem VLM ermöglicht, sich während der Feinabstimmung auf relevante Regionen zu konzentrieren und irreführende Beziehungen zu ignorieren. Wir evaluieren RaVL an 654 VLMs mit verschiedenen Modellarchitekturen, Datenbereichen und erlernten irreführenden Korrelationen. Unsere Ergebnisse zeigen, dass RaVL irreführende Korrelationen präzise entdeckt (191% Verbesserung gegenüber der nächsten Basislinie) und mildert (8,2% Verbesserung bei der Klassifizierungsgenauigkeit von Bildern in der schlechtesten Gruppe). Qualitative Bewertungen an VLMs im Allgemeinbereich und im medizinischen Bereich bestätigen unsere Ergebnisse.
Technischer Schulden (TD) ist ein Begriff, der die zusätzliche Arbeit und Kosten beschreibt, die entstehen, wenn Entwickler sich für eine schnelle und einfache Lösung für ein Problem entschieden haben, anstatt für einen effektiveren und gut gestalteten, aber zeitaufwändigeren Ansatz. Selbst-eingestandene Technische Schulden (SATDs) sind eine spezifische Art von technischen Schulden, die Entwickler absichtlich dokumentieren und anerkennen, typischerweise über textuelle Kommentare. Während diese selbst-eingestandenen Kommentare ein nützliches Werkzeug zur Identifizierung von technischen Schulden sind, konzentrieren sich die meisten bestehenden Ansätze darauf, entscheidende Tokens zu erfassen, die mit verschiedenen Kategorien von TD verbunden sind, und vernachlässigen die reichhaltigen Informationen, die im Quellcode selbst eingebettet sind. In der jüngsten Forschung wurde darauf geachtet, SATDs zu erkennen, indem Kommentare im Quellcode analysiert wurden, und es gab nur wenig Arbeit, die sich mit technischen Schulden befasste, die im Quellcode enthalten sind. Um eine solche Lücke zu schließen, haben wir in dieser Studie durch die Analyse von Kommentaren und ihrem zugehörigen Quellcode aus 974 in der Stack-Korpus gehosteten Java-Projekten den ersten Datensatz von durch Codekommentare identifizierten TD erstellt. Durch eine empirische Bewertung stellten wir fest, dass die Kommentare des resultierenden Datensatzes die Vorhersageleistung modernster SATD-Erkennungsmodelle verbessern. Noch wichtiger ist, dass die Einbeziehung des klassifizierten Quellcodes die Genauigkeit bei der Vorhersage verschiedener Arten von technischen Schulden signifikant verbessert. In dieser Hinsicht ist unsere Arbeit zweifach: (i) Wir glauben, dass unser Datensatz zukünftige Arbeiten in diesem Bereich anregen wird, die verschiedene Forschungsfragen im Zusammenhang mit der Erkennung von technischen Schulden behandeln; (ii) Die vorgeschlagenen Klassifikatoren können als Grundlage für andere Studien zur Erkennung von TD anhand des kuratierten Datensatzes dienen.