
Laut Gartner’s Hypce Cycle 2016 hat das öffentliche Interesse zum Thema Machine Learning derzeit seinen absoluten Höhepunkt erreicht. Allgemein gewinnt die Thematik „künstliche Intelligenz“ an immer größerer Bedeutung bei der Entwicklung von neuen Technologien in den verschiedensten Anwendungsbereichen. Dies hat zur Folge, dass sich Unternehmen und insbesondere das gerade entstandene Berufsbild des Data Scientists den Herausforderungen dieser neuen Thematik stellen müssen.
Vor diesem Hintergrund widmete sich die Veranstaltung „Künstliche Intelligenz und die Zukunft des Data Scientist“ bei der thaltegos GmbH Fragen, wie:
Was versteht man unter Künstlicher Intelligenz?
Welche Technologien gibt es im Bereich der Künstlichen Intelligenz und welche Ansatzpunkte ergeben sich daraus innerhalb der Wertschöpfungskette?
Was sind die Heraus- und Anforderungen, die sich Unternehmen und insbesondere Data Scientists in diesem Kontext stellen müssen?
Um diese Fragen beantworten zu können, ist es notwendig, vorab Begrifflichkeiten rund um das Thema der Künstlichen Intelligenz (KI) zu klären. Dabei muss zwischen KI, dem Überbegriff dieses Themas, sowie den Teilbereichen Machine Learning und Deep Learning unterschieden werden. Während KI allgemein für die maschinelle Generierung von Wissen aus Erfahrung steht, handelt es sich bei Machine Learning und Deep Learning um die derzeit verwendeten Techniken zur Umsetzung dieser Wissensgenerierung. Beim Machine Learning werden Beispieldaten verwendet, anhand derer die Maschine Muster und Regelmäßigkeiten erkennt, um diese anschließend auf unbekannte Daten anwenden zu können. Deep Learning ist der Versuch mit Hilfe von künstlichen neuronalen Netzwerken das menschliche Gehirn zu simulieren.
In den letzten Jahren entwickelte sich eine Vielzahl an KI-Tools, die von cloudbasierten bis hin zu OnPremise Lösungen reichen: Angefangen bei Softwarelösungen der Big Player (z.B. IBM Watson, AWS Machine Learning) über Programmiersprachen, die KI Pakete enthalten (z.B. R Statistics, Python), bis hin zu Open Source Code-Bibliotheken (z.B. Tensorflow, H2O.ai). Darüber hinaus gibt es spezielle Tools für bestimmte Themengebiete. Im Zentrum stehen derzeit die großen Anbieter Microsoft, Amazon sowie IBM Watson.
Diese Tools arbeiten dabei sowohl mit unstrukturierten, als auch strukturierten Daten. KI ermöglicht es, insbesondere unstrukturierte Daten in Form von Sprache, Texten oder Bildern in strukturierten Daten (tabellarische Form) zu transformieren oder aber direkt mit diesen zu arbeiten. Damit kann KI an allen Stellen der Datenwertschöpfungskette zum Einsatz kommen. Das grundlegende Datamanagement kann z.B. durch automatisierte Datenanreicherung sowie -vervollständigung unterstützt werden. Darauf aufbauend ist es durch KI möglich, fortgeschrittene Analysemethoden (z.B. Text Mining, Anomalie-Überprüfungen und vieles mehr) anzuwenden. Dies dient schließlich als Grundlage für KI-Tools im Bereich der Business Intelligence sowie Business Optimization. Somit lassen sich entlang der gesamten Wertschöpfungskette unterstützende KI-basierte Technologien nutzen, beispielsweise in der präventiven Wartung in der Produktion oder im Bereich des personalisierten und automatisierten Marketings.
Um eine erfolgreiche Nutzung der KI-Technologien sicherzustellen, muss der grundlegende Background eines Unternehmens stimmen und darauf aufbauend innerhalb dieses Unternehmens ein fachübergreifendes Projektteam vorhanden sein. Dies bedeutet, dass die richtige Expertise, sowie die nötige IT-Infrastruktur vorhanden sein müssen. Dies kann durch Manager mit einem guten Business Understanding sowie IT-Experten sichergestellt werden. Elemente, wie eine offene Unternehmenskultur und ein verantwortungsvolles Bewusstsein im Zusammenhang mit Datenschutz sind weiterhin notwendig. Der Data Scientist ist dabei das Bindeglied zwischen dem Management und der IT und kann mit Hilfe dieser Basis KI-Tools effizient nutzen und seine Ergebnisse verständlich präsentieren.
Das Tätigkeitsspektrum des Data Scientists ist vielfältig. Um die Anforderungen abdecken zu können, sind Kenntnisse in verschiedenen Bereichen relevant. Zunächst ist ein generelles Business Understanding wichtig, um sinnvolle Ziele festlegen und daran die Vorgehensweise ableiten zu können. Weiterhin benötigt ein Data Scientist Kenntnisse in der Mathematik, damit er statistische Modelle erstellen und Optimierungsprobleme lösen kann. Für die Umsetzung dieser Modelle sind zudem Fähigkeiten im Bereich Computer Science notwendig. Dies beinhaltet insbesondere das Beherrschen von Programmiersprachen, den Umgang mit statistischer Software sowie Kenntnis von BI-Tools für das Reporting.
Die Weiterentwicklung der KI ermöglicht es zukünftig, dass nicht mehr der Data Scientist selbst verschiedene Modelle implementieren muss. KI-Tools werden intelligent und automatisch das beste Modell aufstellen, direkt umsetzen und somit die grundlegenden Modellierungen und Berechnungen übernehmen. Damit wird ein entsprechendes Tool Know-How ausreichend sein, um diese sinnvoll anwenden zu können. Der Data Scientist kann dadurch auf die bestmöglichen Modelle zurückgreifen und sich auf die wertschöpfende Interpretation der Ergebnisse fokussieren. Darüber hinaus werden voraussichtlich eine verständliche Kommunikation und Visualisierung der erzielten Ergebnisse sowie deren Interpretation ein wichtiger Bestandteil seiner Tätigkeit sein. In Zukunft wird es somit die Aufgabe eines Data Scientists sein, die Möglichkeiten der KI zu erkennen und gewinnbringend für sich einzusetzen.