Direkt zum Inhalt
Bild
blog-banner-ai-ml.jpg

KI/ML-Pipeline-Entwicklung in der Cloud vorantreiben

AI-Translated
article publisher

Shilpi

Wolke

Cloud Computing hat die IT-Branche durch eine stille Revolution verändert, indem es die Menschen von traditioneller lokaler Speicherung und Verarbeitung zu netzwerkbasierten Diensten verlagert hat. Darüber hinaus hat die zuverlässige Internetverbindung viele Möglichkeiten geschaffen, indem sie eine effektive Fernkommunikation zwischen Computern ermöglicht. Im Gegensatz dazu hat sich mit Cloud Computing der Denkprozess von Computern verbessert.

Illustrationsbild mit digital geformten Polygonen in blauen Farben mit schwarzem Hintergrund


Darüber hinaus breiten Künstliche Intelligenz (KI) und Maschinelles Lernen (ML) ihre Flügel in allen Industriebereichen aus, vom Gesundheitswesen über das Reise- und Tourismuswesen bis hin zur Technologie. KI verändert sie alle mit ihrem Tempo und in einem geplanten strategischen Ansatz. Wenn Cloud Computing mit KI und maschinellem Lernen kombiniert wird, machen die Erweiterbarkeit, die Beschaffung und die Ausfallsicherheit, die eine Cloud-Infrastruktur bietet, sie zu einer idealen Wahl für den Aufbau einer KI/ML-Pipeline. 

Wenn es jedoch um die Datenaufbereitung und das Pipelining in der Cloud geht, bringt dies eine Reihe von Herausforderungen mit sich, die für den Aufbau einer effektiven KI/ML-Pipeline in der Cloud gelöst werden müssen. 

Lassen Sie uns das Thema näher betrachten und herausfinden, wohin uns eine Verbindung von KI, ML und Cloud führt.

Künstliche Intelligenz & Maschinelles Lernen in der Cloud - "Entschlüsselt"

Die digitale Transformation hat die Welt näher zusammengebracht als je zuvor und treibt reibungslose Abläufe in einem Unternehmen voran. Maschinelles Lernen hat sich in den letzten Jahren in den Diskussionen über die digitale Transformation durchgesetzt. Unternehmen arbeiten mit Hochdruck an einem System, in dem die Prozesse ohne menschliches Zutun rationalisiert werden. Maschinelles Lernen und künstliche Intelligenz werden, wenn sie mit der Cloud verbunden sind, dem System als Ganzes Vorteile bringen. 

Wenn wir über Cloud Computing sprechen, haben wir einen langen Weg zurückgelegt, von der Speicherung von Daten auf Disketten, USB-Sticks und Festplatten bis hin zur Verwaltung, Verarbeitung und Skalierung der Daten für große Unternehmensanwendungen. Die Elastizität, die bedarfsgerechte Verfügbarkeit, die verbesserte Effektivität und die verbesserten IT-Fähigkeiten sind eine treibende Kraft für die Unternehmen, in die Cloud zu gehen. Außerdem verschafft sie den Unternehmen einen Wettbewerbsvorteil. Die Kombination aus Cloud Computing, KI und maschinellem Lernen beschleunigt die Zielerreichung von Unternehmen in einem viel schnelleren Tempo. In Kombination sind die erstgenannten viel besser, als sich durch die vielen manuellen Algorithmen zu wühlen. Allerdings ist nichts einfach, und das gilt auch für die Implementierung von KI/ML-Pipelines. Die damit verbundenen Herausforderungen werden im Folgenden erläutert.

Herausforderungen bei der Implementierung einer KI/ML-Pipeline in der Cloud

Für eine erfolgreiche KI/ML-Datenanalyse sind Daten ein entscheidender Faktor. Daher ist die Datenaufbereitung ein wichtiger Schritt bei der Instrumentierung einer KI/ML-Pipeline. Die Datenaufbereitung und das Pipelining weisen die folgenden Herausforderungen auf.

  • Manuelle Datenverarbeitung: Es hat sich gezeigt, dass die Daten durch manuelles Schreiben von Skripten in R oder Python durch die Datenwissenschaftler aufbereitet werden. Dies macht den Prozess für die Datenwissenschaftler mühsam und zeitaufwendig. Darüber hinaus ist bei der Erstellung von Daten oder Code äußerste Sorgfalt geboten, da die manuelle Datenverarbeitung viele ungeahnte Fehler mit sich bringt. 
     
  • Wählen Sie eine Option: Für die Ausübung einer KI- und ML-Datenaufbereitung ist eine riesige Menge an Daten und Zeit erforderlich. Bei der Arbeit an oder der Verbesserung von KI/ML-Pipelines müssen Unternehmen zwischen Zeit, Geld oder Genauigkeit wählen, was zu einem Dilemma ohne Ausweg führt.
     
  • Problematische Wiederverwendbarkeit und Reproduzierbarkeit von Daten: Die manuelle Datenaufbereitung durch die Wissenschaftler macht es etwas schwierig, Datenbestände, nämlich Datenmodelle und Pipelines, abzurufen und wiederzuverwenden. Der Grund dafür ist die Bereinigung durch die Datenwissenschaftler, um Änderungen im Code vorzunehmen. Folglich wird eine ordnungsgemäße Dokumentation der Daten für eine pragmatische Datenanpassung gemäß den Richtlinien und Vorschriften des Unternehmens empfohlen. Darüber hinaus sollte jede Änderung an den Daten Schritt für Schritt notiert werden, wobei die Datenschutzgesetze, wie z. B. die DSGVO (Datenschutz-Grundverordnung) usw., eingehalten werden müssen.
     
  • Neuimplementierung: Auf die Erstellung eines neuen Datenmodells folgt die Weitergabe an das Operations Team, das das Datenmodell neu implementiert, um es umfassend zu nutzen. Der Prozess der Neuimplementierung ist etwas ungeschickt, da verschiedene Gruppen beteiligt sind, was letztendlich zu vielen Fehlern, Verwirrung, längeren Implementierungszeiten und mühsamen Ausführungsmodellen führt.

Lösung der damit verbundenen Herausforderungen 

Dieser Abschnitt enthält die Stichpunkte, die Lösungen für die Herausforderungen im Zusammenhang mit der KI/ML-Pipeline in der Cloud aufzeigen. 

  • Datenaufbereitung mit Agile in Daten-Pivot-Impressionen anstelle von manueller Datenaufbereitung: Die Daten werden durch einfache, datenzentrierte Abbildungen mit den Datenaufbereitungs- und Pipelining-Plattformen aufbereitet. Dies fördert die einfache Erforschung von Daten aus unzähligen Datensätzen mit zahlreichen Attributen, ohne dass der Explorer in einer Endlosschleife verloren geht.
     
  • Implementierung der Datenzusammenführung anstelle von Wiederverwendbarkeit und Reproduzierbarkeit: Die Daten werden in Form von Metadaten von Datenaufbereitungs- und Pipelining-Plattformen gesammelt. Dies ermöglicht die Protokollierung der Änderungen in Form von Berichten, wie z. B. Verschieben, Kombinieren oder Anwenden von Algorithmen usw. Diese Berichte sind für diejenigen, die eine Genehmigung haben, leicht zugänglich. Das Umkehren und Ändern der algorithmischen Funktion führt zu einer Überarbeitung der Metadaten, die automatisch widergespiegelt wird. 
     
  • Operationalisierung anstelle von Neuimplementierung: Die Operationalisierung hat einen greifbaren und messbaren Einfluss auf die Anwendungs- und Entwicklungsumgebung. Sie bringt Klarheit, indem sie den Prozess auf einer Plattform initiiert, und zusätzlich wird die Verfolgung der Änderungen mit den intakten Sicherheitsmaßnahmen rationalisiert.

Anwendungsfälle: KI- und ML-Pipeline-Instrumentierung in der Cloud

Google Cloud AI und TensorFlow TFX Pipelines Association

Erweiterbare und hochleistungsfähige Funktionen für maschinelles Lernen werden mit TFX-Pipelines ausgeführt. Die TFX-Komponenten unterstützen die Modellierung, das Training, die Bereitstellung und das Deployment-Management für Online-, native mobile und JavaScript-Ziele. Darüber hinaus befasst sich die TFX-Plattform mit zahlreichen wichtigen Deployment-Herausforderungen, wie z. B. der Anzeige der Modellleistung in verschiedenen Datenteilen, Qualitätsprüfungen und der Validierung von Eingabedaten, um nur einige zu nennen. 

Im Folgenden wird erläutert, wie die Kombination aus Google Cloud und der TFX-Plattform für einzelne ML-Anwendungen genutzt werden kann.

  • Serverless Autoscaling Execution Engine "Cloud Dataflow" für Apache Beam-basierte Komponenten:

    Apache Beam wurde für die verteilte Verarbeitung entwickelt und läuft nativ auf Google Cloud mit Cloud Dataflow. Es bietet eine reibungslose automatische Skalierungsdauer und ermöglicht den Zugriff auf eine riesige Menge an On-Demand-Rechenleistung. Wenn Beams auf Cloud Dataflow ausgeführt werden, ermöglicht dies den Zugriff auf umfangreiche Funktionen wie Dataflow Shuffle usw. Folglich verfügt Apache Beam über die Fähigkeit, in zahlreichen anderen Ausführungsumgebungen zu laufen, darunter Apache Flink sowohl für On-Prem- als auch für Multi-Cloud-Umgebungen. 
     
  • Optimierte Entwicklung, Bereitstellung und Verwaltung von TFX-Workflows mit Kubeflow-Pipelines

    Kubeflow-Pipelines, die durch das Open-Source-Projekt Kubeflow erweitert wurden, erleichtern die Entwicklung, Bereitstellung und Verwaltung von TFX-Workflows auf Google Cloud. Der Prozess wird mit Google Kubernetes Engine (GKE) über den 1-Klick-Deploy durchgeführt, der die automatische Konfiguration vornimmt und wichtige Backend-Dienste betreibt. GKE bietet Sicherheits- und Zugänglichkeitswartung sowie Tools, Überwachung und Metrikgenerierung. 

Darüber hinaus bieten Cloud ML Engine verteiltes Modelltraining und skalierbare Modellbereitstellung, Cloud Dataflow die Ausführung und den Workflow skalierter TFX-Komponenten und Kubeflow Pipelines auf GKE (Google Kubernetes Engine) die Förderung der Metadatenorchestrierung und die vereinfachte Verwaltung und Skalierung der TFX-Workflow-Ausführung. 

AI Hub für vereinfachte KI-Bereitstellung

AI Hub wurde von Google entwickelt und erweitert den KI-Bereich innerhalb der Unternehmen, indem er die Identifizierung, das Teilen und die Wiederverwendung bestehender Tools für die weitere Arbeit vereinfacht. Jupyter Notebooks und TensorFlow-Module verwenden AI Hub für ML-Inhalte und delegieren die folgenden wichtigen Vorteile:

  • Unternehmen können öffentlich zugängliche, qualitative ML-Ressourcen nutzen, die von Google Cloud AI, Google Research und anderen Teams von Google entwickelt wurden.
     
  • Google bietet einen sicheren, privaten Hub, um ML-Ressourcen innerhalb des Unternehmens zu teilen. Er kanalisiert die Wiederverwendung von Pipelines und deren Bereitstellung in der Produktion in GCP (Google Cloud Platform) oder auf anderen hybriden Infrastrukturen mit dem Kubeflow-Pipeline-System.

Fazit

Datenerstellung, -analyse und -verwaltung sind in letzter Zeit ein wichtiges Thema. Die Zusammensetzung und Kanalisierung von Daten ist eine zeitaufwändige Aufgabe, egal ob wir in einem Cloud-basierten Szenario oder vor Ort sprechen. Eine übermäßige Menge an Zeit wird verschwendet, wenn Datenanalysten mit grundlegenden Aktivitäten beginnen. Es wird den Unternehmen keinen Nutzen bringen, wenn sie ihre besten Datenwissenschaftler auf solche niedrigschwelligen Aktivitäten konzentrieren. 

Darüber hinaus werden Wiederverwendbarkeit und Reproduzierbarkeit für die Unternehmen unwirtschaftlich sein, wenn Daten in die und aus der Cloud verschoben werden. Um auf der vorteilhaften Seite zu stehen, ist es für Unternehmen unerlässlich, eine persistente Plattform für die Datenaufbereitung und das Pipelining aufzubauen, wie z. B. das Mischen von Daten in Form von Metadaten, das Auferlegen von operativen Aktivitäten usw. Dies vereinfacht den Prozess und macht ihn schnell, wobei Unbefugten der Zugriff verwehrt bleibt. AI Hub und Kubeflow sind einige der Implementierungen, die in Google Cloud zu sehen sind. 

Abonnieren

Ready to start your digital transformation journey with us?

Verwandte Blogs

Serverless vs. Managed Services: Welche Option ist die richtige für Sie?

Bllog%20Banner%20%281%29%20%281%29.png

Wenn Sie sich entscheiden, eine Anwendung in der Cloud zu entwickeln, müssen Sie verschiedene Faktoren berücksichtigen…

Warum Serverless auf AWS?

Untitled%20design%20%282%29%20%281%29.png

In den letzten Jahren hat die Cloud-Branche mit der Transformation des Serverless Computing einen extremen Wandel…

Den Serverless-Trend unter der Lupe

Untitled%20design%20%288%29.jpg

Flexibel. Skalierbar. Wirtschaftlich. Diese Begriffe fassen im Wesentlichen die Vorteile von Serverless Computing zusammen,…