The GenAI Building Blocks

Wie Sie Ihre Daten für GenAI aufbereiten

Pattern AI
  • Artikel
  • 5 Minuten Lesezeit
  • 28 Nov 2023

Von Marcus Hartmann, Felix Baumann, Maria Foelster und Joshua Wenn. Daten sind der grundlegende Baustein im Bereich der künstlichen Intelligenz (KI), da sie das Potenzial für Innovation bieten und es der generativen KI (GenAI) ermöglichen, ihre Fähigkeiten zu entfalten. GenAI, ein faszinierender Bereich innerhalb des weiten Feldes der künstlichen Intelligenz, konzentriert sich auf maschinelles Lernen aus großen Datensätzen, um Inhalte, Kunstwerke, Texte und andere Werke zu generieren, die oft mit menschlichen Leistungen vergleichbar sind oder sie sogar übertreffen. Es ist jedoch wichtig anzuerkennen, dass Daten eine wesentliche Rolle spielen, um diesen außergewöhnlichen Fortschritt voranzutreiben.

Aber warum ist das so? Vielfältige und qualitativ hochwertige Datensätze sind aus mehreren Gründen unerlässlich. Durch eine breite Datenbasis können generative KI-Modelle eine breitere und anpassungsfähigere Palette von Ergebnissen erzeugen. Bei Aufgaben wie der Generierung von Texten, der Synthese von Bildern oder der Komposition von Musik ist dies von entscheidender Bedeutung, da verschiedene Personen unterschiedliche Vorlieben und Bedürfnisse haben können. Durch das Training mit vielfältigen Daten kann die KI den Anforderungen eines breiten Publikums effektiv gerecht werden und vermeiden voreingenommene Ergebnisse zu produzieren.

Die Rolle von Daten beim Einsatz generativer KI

„Damit GenAI effizient und effektiv eingesetzt werden kann, ist eine Vielzahl verschiedener Daten entscheidend.“

Wenn KI-Modelle auf einem eingeschränkten und voreingenommenen Datensatz trainiert werden, können sie unbeabsichtigt voreingenommene oder anstößige Inhalte generieren. Je schlechter die Datenqualität ist, desto höher ist die Wahrscheinlichkeit und das Ausmaß von voreingenommenen Ergebnissen. Die Verwendung vielfältiger und hochwertiger Datensätze trägt dazu bei, diese Voreingenommenheit zu verringern, indem das Modell mit einem breiteren Spektrum an Standpunkten und Erfahrungen vertraut gemacht wird, wodurch es robuster wird.

Kurz gesagt: Um zuverlässige, flexible, moralisch einwandfreie und vielseitige KI-Modelle zu trainieren, die eine Vielzahl von Aufgaben und Eingaben bewältigen können, ist es entscheidend, eine breite Palette erstklassiger Datensätze zur Verfügung zu haben. Dies ist ein wichtiger Faktor, um die Effektivität und verantwortungsvolle Nutzung von KI in verschiedenen Anwendungen sicherzustellen.

Nachdem wir nun die Bedeutung einer breiten Palette von Datensätzen kennen, stellt sich die Frage, wie wir diese Vielfalt erreichen können. Eine Methode, die sich in der Praxis bei uns von PwC bewährt hat, ist der Datenbeschaffungsprozess.

„Datenbeschaffung beschreibt einen datentypabhängigen und standardisierten Prozess zur Erfassung und Bereitstellung von Daten für spätere Analysen und die Weiterverwendung.“

Es ist wichtig zu beachten, dass sich Datenbeschaffung auf Daten bezieht, die über einen Anbieter erworben wurden. Im Gegensatz dazu bezieht sich die Datenintegration auf den Prozess, durch den wir Daten, die PwC bereits besitzt, verfügbar machen. Bei PwC Deutschland hat das Chief Data Office die Service Ownership für die Beschaffung von Drittanbieterdaten mit folgenden Verantwortlichkeiten und Vorteilen:

Verantwortlichkeiten

  • Bereitstellung einer zentralen Verwaltungseinheit für eine strukturierte und zentralisierte Datenbeschaffung
  • Maximierung des Mehrwerts von Daten, indem die Nutzung vorhandener Datensätze gefördert wird z. B. durch Lizenzerweiterungen
  • Festlegung strategischer Anforderungen, die Datensätze erfüllen müssen

Die Vorteile: Ein koordinierter Ansatz zur Datenbeschaffung reduziert Kosten und Risiken

  • Kostenersparnis: Die Koordination der Datenbeschaffung reduziert die Anzahl redundanter Datensätze und schafft Transparenz über die aktuelle Verfügbarkeit.
  • Sichtbarkeit: Die Rückverfolgbarkeit von Datenquellen und Verbindungen wird durch ein klares Wissen darüber, welche Daten verfügbar sind, gewährleistet.
  • Strukturierte Datenbeschaffung: Alle erworbenen Drittanbieterdatensätze müssen einer Überprüfung unterzogen werden, um sicherzustellen, dass strategische Anforderungen (z. B. ein eindeutiger Business Case, Einzigartigkeit, Vereinbarkeit mit der Strategie) erfüllt werden.
Infografik: Die Rolle von Daten beim Einsatz generativer KI

„Richtlinien und Anwendungsfälle müssen definiert werden, um alle Branchen auf ihrer GenAI-Reise zu unterstützen – gestärkt durch ein etabliertes Data Governance Framework.“

Den Datenlebenszyklus verstehen

Es wird einfacher, verschiedene Themen zu verstehen, wenn sie mithilfe eines systematischen Ansatzes erklärt werden. Um den Kontext zu verdeutlichen: PwC orientiert sich in seinen Geschäftsprozessen am Datenlebenszyklus, der ähnlich wie bei einem Produkt verschiedene Stadien durchläuft.

Daten können nicht an einem einzigen Punkt erfasst werden. Ein ganzheitlicher Blick auf den gesamten Lebenszyklus ermöglicht es uns, Daten so zu verwalten, dass sie jederzeit für den jeweils beabsichtigten Zweck zur Verfügung stehen. Der Datenlebenszyklus umfasst den Zeitraum vom ersten Kontakt mit den Daten bei der Generierung bis zum letzten Kontakt, der endgültigen Löschung. Dieser allgemeine Prozess beschreibt den Datenfluss durch eine Organisation. Daten durchlaufen im Datenlebenszyklus verschiedene Punkte.

Erfassen

Bei der Erfassung von Daten kann GenAI verwendet werden, um die erfassten Daten zu ergänzen. Dies bedeutet, dass GenAI die Fähigkeit hat, weitere Beispiele oder Instanzen hinzuzufügen, um den Datensatz zu erweitern und eine robustere Analyse zu ermöglichen. GenAI kann auch hilfreich sein, um eine leicht verständliche Dokumentation für Datenquellen basierend auf spezifischen Metadaten zu erstellen.

Risiko: Durch das Hinzufügen von GenAI in der Datenerfassungsphase steigt das Risiko von Datenverzerrungen, da es existierende Verzerrungen in Ihren Trainingsdaten verstärken und Herausforderungen in Bezug auf den Datenschutz verursachen kann.

Do:

  • Datenvielfalt: Es ist entscheidend, eine vielfältige Palette an Daten zu sammeln, um die erfolgreiche Anwendung von generativen KI-Modellen sicherzustellen.
  • Daten-Dokumentation: Stellen Sie sicher, dass Sie sorgfältig dokumentieren, wie Sie die Daten gesammelt haben, einschließlich Details zu den Quellen, den Erfassungsmethoden und etwaigen Einwilligungserklärungen.

Don’t:

  • Übermäßige Datenerfassung: Achten Sie darauf, keine irrelevanten Daten im Übermaß für Ihr Projekt zu sammeln, da dies möglicherweise zu zusätzlichen Risiken im Bereich Datenschutz und Datensicherheit führt.

Zusammenfassung

Daten spielen eine bedeutende Rolle im Bereich der Generativen KI und sind einer ihrer grundlegenden Komponenten. Im gesamten Datenlebenszyklus gibt es umfangreiche Möglichkeiten für GenAI, um zur Steigerung der Effizienz beizutragen.

„Stellen Sie eine umfassende Integration zwischen Unternehmensstrategie und Datenstrategie sicher.“

Es wird für Unternehmen immer wichtiger, eine solide Grundlage im Datenmanagement zu schaffen und eine Kultur zu fördern, die Daten sowohl auf Ebene der Mitarbeitenden als auch auf Management-Ebene wertschätzt. Dies muss in die übergreifenden Ziele des Unternehmens integriert und dann in eine Datenstrategie übersetzt und in den operativen Strukturen umgesetzt werden.

Das Management spielt eine entscheidende Rolle bei der Entwicklung von Richtlinien, die diese Aspekte umfassen und bei der Förderung einer Umgebung, die sich auf Daten konzentriert. Ohne eine angemessene Data Governance, Richtlinien und eine grundlegende Datenkompetenz besteht die Gefahr, dass generative KI Risiken birgt, die so weit wie möglich reduziert werden müssen.

„Immer wenn Daten bei PwC verwendet werden, gibt es einen oder mehrere Schritte in der Datenwertschöpfungskette, die  helfen können, effizienter zu arbeiten. Während die Ideenfindung und das Produktmanagement bei Ihnen bleiben, ermöglicht das CDO Office die Prozesse, die die Wertschöpfung vorantreiben. Das Data & Content Team des CDO stellt die grundlegende Struktur sowohl für die technische Umsetzung als auch für die Steuerung und operativen Fähigkeiten wie einen Datenkatalog und ein Datenökosystem bereit. Das Data & Tech Team baut die Infrastruktur auf, die allen Operationen zugrunde liegt. Schließlich vervollständigen verschiedene Ebenen der Compliance und des Risikos das Bild, bei dem Ihnen der CDO helfen kann.“

PwC verfügt über internes und externes Wissen sowie modernste Ressourcen im Bereich Daten, die effizient genutzt werden können, um das immense Potenzial von GenAI auszuschöpfen. Wenn Sie Hilfe oder Unterstützung zu diesem Thema benötigen, zögern Sie nicht, sich an unser Team kompetenter Spezialist:innen zu wenden, die Ihnen jederzeit gerne zur Verfügung stehen.

Unsere Webcast-Reihe

GenAI – What decision-makers need to know now

Follow us
Hide

Contact us

Franz Steuer

Franz Steuer

Partner, PwC Germany

Tel.: +49 151 70274650

Christine Flath

Christine Flath

Leitungsteam Familienunternehmen und Mittelstand und Ihre Ansprechpartnerin für Transformationsthemen, PwC Germany

Tel.: +49 171 5666490

Andreas Hufenstuhl

Andreas Hufenstuhl

Partner, PwC Germany

Felix Baumann

Felix Baumann

Senior Manager, PwC Germany

Machteld Foelster

Machteld Foelster

Manager, PwC Germany

Joshua Wenn

Joshua Wenn

Manager, PwC Germany