
Ethik und verantwortungsvolle KI in generativen Systemen
KI verändert alles: Interaktion, Datenhandhabung und ethische Herausforderungen. Wir stehen an einem Wendepunkt für Fairness und Datenschutz.
Von Marcus Hartmann, Felix Baumann, Maria Foelster und Joshua Wenn. Daten sind der grundlegende Baustein im Bereich der künstlichen Intelligenz (KI), da sie das Potenzial für Innovation bieten und es der generativen KI (GenAI) ermöglichen, ihre Fähigkeiten zu entfalten. GenAI, ein faszinierender Bereich innerhalb des weiten Feldes der künstlichen Intelligenz, konzentriert sich auf maschinelles Lernen aus großen Datensätzen, um Inhalte, Kunstwerke, Texte und andere Werke zu generieren, die oft mit menschlichen Leistungen vergleichbar sind oder sie sogar übertreffen. Es ist jedoch wichtig anzuerkennen, dass Daten eine wesentliche Rolle spielen, um diesen außergewöhnlichen Fortschritt voranzutreiben.
Aber warum ist das so? Vielfältige und qualitativ hochwertige Datensätze sind aus mehreren Gründen unerlässlich. Durch eine breite Datenbasis können generative KI-Modelle eine breitere und anpassungsfähigere Palette von Ergebnissen erzeugen. Bei Aufgaben wie der Generierung von Texten, der Synthese von Bildern oder der Komposition von Musik ist dies von entscheidender Bedeutung, da verschiedene Personen unterschiedliche Vorlieben und Bedürfnisse haben können. Durch das Training mit vielfältigen Daten kann die KI den Anforderungen eines breiten Publikums effektiv gerecht werden und vermeiden voreingenommene Ergebnisse zu produzieren.
„Damit GenAI effizient und effektiv eingesetzt werden kann, ist eine Vielzahl verschiedener Daten entscheidend.“
Wenn KI-Modelle auf einem eingeschränkten und voreingenommenen Datensatz trainiert werden, können sie unbeabsichtigt voreingenommene oder anstößige Inhalte generieren. Je schlechter die Datenqualität ist, desto höher ist die Wahrscheinlichkeit und das Ausmaß von voreingenommenen Ergebnissen. Die Verwendung vielfältiger und hochwertiger Datensätze trägt dazu bei, diese Voreingenommenheit zu verringern, indem das Modell mit einem breiteren Spektrum an Standpunkten und Erfahrungen vertraut gemacht wird, wodurch es robuster wird.
Kurz gesagt: Um zuverlässige, flexible, moralisch einwandfreie und vielseitige KI-Modelle zu trainieren, die eine Vielzahl von Aufgaben und Eingaben bewältigen können, ist es entscheidend, eine breite Palette erstklassiger Datensätze zur Verfügung zu haben. Dies ist ein wichtiger Faktor, um die Effektivität und verantwortungsvolle Nutzung von KI in verschiedenen Anwendungen sicherzustellen.
Nachdem wir nun die Bedeutung einer breiten Palette von Datensätzen kennen, stellt sich die Frage, wie wir diese Vielfalt erreichen können. Eine Methode, die sich in der Praxis bei uns von PwC bewährt hat, ist der Datenbeschaffungsprozess.
„Datenbeschaffung beschreibt einen datentypabhängigen und standardisierten Prozess zur Erfassung und Bereitstellung von Daten für spätere Analysen und die Weiterverwendung.“
Es ist wichtig zu beachten, dass sich Datenbeschaffung auf Daten bezieht, die über einen Anbieter erworben wurden. Im Gegensatz dazu bezieht sich die Datenintegration auf den Prozess, durch den wir Daten, die PwC bereits besitzt, verfügbar machen. Bei PwC Deutschland hat das Chief Data Office die Service Ownership für die Beschaffung von Drittanbieterdaten mit folgenden Verantwortlichkeiten und Vorteilen:
„Richtlinien und Anwendungsfälle müssen definiert werden, um alle Branchen auf ihrer GenAI-Reise zu unterstützen – gestärkt durch ein etabliertes Data Governance Framework.“
Es wird einfacher, verschiedene Themen zu verstehen, wenn sie mithilfe eines systematischen Ansatzes erklärt werden. Um den Kontext zu verdeutlichen: PwC orientiert sich in seinen Geschäftsprozessen am Datenlebenszyklus, der ähnlich wie bei einem Produkt verschiedene Stadien durchläuft.
Daten können nicht an einem einzigen Punkt erfasst werden. Ein ganzheitlicher Blick auf den gesamten Lebenszyklus ermöglicht es uns, Daten so zu verwalten, dass sie jederzeit für den jeweils beabsichtigten Zweck zur Verfügung stehen. Der Datenlebenszyklus umfasst den Zeitraum vom ersten Kontakt mit den Daten bei der Generierung bis zum letzten Kontakt, der endgültigen Löschung. Dieser allgemeine Prozess beschreibt den Datenfluss durch eine Organisation. Daten durchlaufen im Datenlebenszyklus verschiedene Punkte.
Bei der Erfassung von Daten kann GenAI verwendet werden, um die erfassten Daten zu ergänzen. Dies bedeutet, dass GenAI die Fähigkeit hat, weitere Beispiele oder Instanzen hinzuzufügen, um den Datensatz zu erweitern und eine robustere Analyse zu ermöglichen. GenAI kann auch hilfreich sein, um eine leicht verständliche Dokumentation für Datenquellen basierend auf spezifischen Metadaten zu erstellen.
Risiko: Durch das Hinzufügen von GenAI in der Datenerfassungsphase steigt das Risiko von Datenverzerrungen, da es existierende Verzerrungen in Ihren Trainingsdaten verstärken und Herausforderungen in Bezug auf den Datenschutz verursachen kann.
Do:
Don’t:
Daten spielen eine bedeutende Rolle im Bereich der Generativen KI und sind einer ihrer grundlegenden Komponenten. Im gesamten Datenlebenszyklus gibt es umfangreiche Möglichkeiten für GenAI, um zur Steigerung der Effizienz beizutragen.
„Stellen Sie eine umfassende Integration zwischen Unternehmensstrategie und Datenstrategie sicher.“
Es wird für Unternehmen immer wichtiger, eine solide Grundlage im Datenmanagement zu schaffen und eine Kultur zu fördern, die Daten sowohl auf Ebene der Mitarbeitenden als auch auf Management-Ebene wertschätzt. Dies muss in die übergreifenden Ziele des Unternehmens integriert und dann in eine Datenstrategie übersetzt und in den operativen Strukturen umgesetzt werden.
Das Management spielt eine entscheidende Rolle bei der Entwicklung von Richtlinien, die diese Aspekte umfassen und bei der Förderung einer Umgebung, die sich auf Daten konzentriert. Ohne eine angemessene Data Governance, Richtlinien und eine grundlegende Datenkompetenz besteht die Gefahr, dass generative KI Risiken birgt, die so weit wie möglich reduziert werden müssen.
„Immer wenn Daten bei PwC verwendet werden, gibt es einen oder mehrere Schritte in der Datenwertschöpfungskette, die helfen können, effizienter zu arbeiten. Während die Ideenfindung und das Produktmanagement bei Ihnen bleiben, ermöglicht das CDO Office die Prozesse, die die Wertschöpfung vorantreiben. Das Data & Content Team des CDO stellt die grundlegende Struktur sowohl für die technische Umsetzung als auch für die Steuerung und operativen Fähigkeiten wie einen Datenkatalog und ein Datenökosystem bereit. Das Data & Tech Team baut die Infrastruktur auf, die allen Operationen zugrunde liegt. Schließlich vervollständigen verschiedene Ebenen der Compliance und des Risikos das Bild, bei dem Ihnen der CDO helfen kann.“
PwC verfügt über internes und externes Wissen sowie modernste Ressourcen im Bereich Daten, die effizient genutzt werden können, um das immense Potenzial von GenAI auszuschöpfen. Wenn Sie Hilfe oder Unterstützung zu diesem Thema benötigen, zögern Sie nicht, sich an unser Team kompetenter Spezialist:innen zu wenden, die Ihnen jederzeit gerne zur Verfügung stehen.
KI verändert alles: Interaktion, Datenhandhabung und ethische Herausforderungen. Wir stehen an einem Wendepunkt für Fairness und Datenschutz.
ChatGPT ermöglicht es Unternehmen, ihren operativen Geschäftsbetrieb durch schnell skalierbare Use Cases auf Basis künstlicher Intelligenz zu vereinfachen.
Datengetriebene Unternehmen sind resilienter und innovativer. PwC unterstützt dabei, sich mit KI zukunftsfähig aufzustellen – von der Strategie bis zur Umsetzung.
KI stößt bei Menschen weiterhin auf Vorbehalte und Unsicherheiten. Unternehmen müssen Vertrauen schaffen, für eine erfolgreiche KI-Transformation!
Christine Flath
Leitungsteam Familienunternehmen und Mittelstand und Ihre Ansprechpartnerin für Transformationsthemen, PwC Germany
Tel.: +49 171 5666490