Direkt zum Inhalt
Strategie
22/02/2019

Objekterkennung mittels KI auf der MICA®

Ein Gastbeitrag von Carsten Harms
Carsten Harms
Carsten Harms
M.Sc., Innovative Fabriksysteme (IFS) – DFKI GmbH
Objekterkennung

Das intelligente Erkennen von Objekten ist eine Grundvoraussetzung, um in einer wandelbaren und hochflexiblen Fertigung individuell den Automatisierungsprozess zu steuern. In dem Industrie 4.0 Demonstrator, der HAII4You Factory, der als Testbed neuester Enabling Technologien der Integrated Industry dient, hat HARTING zur HM 2019 gemeinsam mit dem DFKI die Objekterkennung mittels KI auf der MICA® implementiert. Dabei wird mit Hilfe einer Kamera und eines angelernten Systems erkannt, ob das richtig zusammengestellte Produkt produziert wurde. Bei fehlerhafter Zusammenstellung wird über die MICA® direkt in den Fertigungsprozess eingegriffen. Dieses Testbed lässt sich auf viele Fragestellungen in einer klassischen Fertigung verallgemeinern. Zukünftig können mit Hilfe einer intelligenten Bilderkennung fehlerhafte Teile identifiziert und der Prozess gestoppt oder justiert werden.

Im Vergleich zu einer relativ simplen Klassifizierung, bei der das eingehende Bild in der Gesamtheit einer oder mehreren Klassen mit einer gewissen Wahrscheinlichkeit eingeteilt wird, ist die Objekterkennung in der Lage, mehrere Objekte innerhalb eines Bildes analog zu klassifizieren. Dazu muss vereinfacht ausgedrückt das eingehende Bild in tausenden sich überlappende „Teilbereiche“ aufgeteilt werden, die jeweils einzeln klassifiziert werden. Die Wahrscheinlichkeit, zu einer bestimmten Klasse zugehörig zu sein muss einen Schwellwert übertreffen, um weiter betrachtet zu werden. Räumlich nahe bei einander liegende und aufgrund ihrer Klassifikation zusammengehörige „Teilbereiche“ werden zusammengefasst. Abschließend wird jedem übrig gebliebenen Teilbereich die wahrscheinlichste Klasse zugewiesen. Diese können zur Kontrolle durch Menschen visualisiert werden oder über geeignete Schnittstellen direkt in bestehende Prozesse eingebunden werden.

Doch wie genau kommt man als End-Anwender mit möglichst geringem zeitlichem und finanziellem Aufwand zu einer Lösung? Das fängt bei der Wahl des Edge Devices wie der HARTING MICA an. So ist die MICA 2 beispielsweise deutlich leistungsfähiger als ihr Vorgänger, jedoch weniger leistungsfähig als GPU-unterstütze Server, wie diese bei jedem Cloud-Anbieter verwendet werden können. Damit zur Anwendung von KI dennoch ein Edge Device verwendet werden kann, kommt eine hybride Edge-Cloud-Architektur zum Einsatz. Damit KI-basierte Modelle verwendet werden können, müssen diese zuvor trainiert werden. Die dazu notwendige Rechenleistung ist um etliche Größenordnungen höher als zur späteren Inferenz1.

Dabei wird das tiefe künstliche neuronale Netzwerk (engl. Deep Neural Network, DNN), dass die Objekterkennung letztlich durchführt, auf einem Server mit mindestens einer leistungsstarken innerhalb einer virtuellen Maschine (VM) trainiert. Diese VM kann sowohl innerhalb von entsprechenden Servern von Cloud-Anbietern als auch auf on-premise Servern ausgeführt werden, wenn zum Beispiel sensible Daten das Firmennetzwerk nicht verlassen dürfen.

Doch bevor mit dem Training begonnen werden kann, muss zunächst ein Datensatz mit Trainings- und Validierungsbildern erstellt werden. Hierzu ist es notwendig, für jede Klasse nach eigener Erfahrung mindestens 150 Bilder aus unterschiedlichen Perspektiven und Distanzen bei wechselnder Beleuchtung von den entsprechenden Objekten zu machen. Zusätzlichen sollten zumindest auf einigen Bilder auch mehrere Objekte anderer Klassen enthalten sein, die sich auch teilweise überlappen dürfen. Dies steigert die Robustheit der KI-basierten Objekterkennung, die im Gegensatz zu klassischen manuell programmierten Filtern flexibel mit unterschiedlichsten Gegebenheiten zurechtkommt.

Nachfolgend müssen alle angefertigten Bilder manuell gelabelt werden, indem in jedem einzelnen Bild alle Objekte mit jeweils einem Rechteck markiert (eine sogenannte Bounding-Box) und einer Klasse zugeordnet werden. Dieser Arbeitsschritt muss sehr sorgfältig durchgeführt werden, schließlich bildet der so erstellte Datensatz die spätere Trainingsgrundlage und bestimmt ausschlaggebend die Genauigkeit der Objekterkennung.

Die Architektur des verwendeten DNNs beeinflusst ebenso die erzielbare Genauigkeit der Objekterkennung. Allerdings sind hier die Grenzen durch die Anforderungen des Anwendungsfalls und der erzielbaren Inferenz-Geschwindigkeit auf dem Edge Device gesetzt. Es muss also ein Kompromiss aus Geschwindigkeit und Genauigkeit gefunden werden. Abhängig von der ausgewählten Architektur müssen die eingehenden Bilder verkleinert werden. Gängige Größen sind 224x224, 300x300 oder 640x640 RGB-Pixel. Dabei gilt, dass innerhalb der gleichen Architekturfamilie größere Eingangsbilder eine höhere Genauigkeit bei entsprechenden Geschwindigkeitseinbußen erreichen können.

Nutzt man wie in diesem Beispiel TensorFlow2 sowie die zugehörige Object Detection API3, so stehen mehrere Modelle mit verschiedenen Architekturen zum Download zur Verfügung4. Diese Modelle sind zum Beispiel auf den COCO5 (Common Objects in COntext) Datensatz mit 1000 verschiedenen Klassen vortrainiert. Für die allermeisten industriellen Anwendungsfälle muss dieses Modell jedoch angepasst werden.

Dazu wird nach einer Vorgehensweise des „Transfer Learnings“ der wiederverwendbare „Feature Extraction“-Teil des vortrainierten Netzwerks „eingefroren“, so dass diese beim Anpassen durch Nachtrainieren unveränderlich sind. Der nicht verwendbare Klassifikations-Teil des Ausgangs-Netzwerks wird dagegen durch einen eigenen, neuen Klassifikationsteil ersetzt, der mit dem zuvor erstellten Datensatz trainiert wird. Da so nur ein Teil des Netzwerks neu trainiert werden muss, verringert sich der notwendige Rechenaufwand erheblich. Dies spart sowohl Zeit als auch Kosten.

Nach dem abgeschlossenen Training wird das Modell in diesem Beispiel in ein TensorFlow Lite Modell konvertiert, dass wiederrum innerhalb eines Containers durch eine TensorFlow Lite6 Run-Time ausgeführt wird. Dieser Container kann z.B. bei Azure als „IoT Edge-Modul“ über die Azure IoT Edge auf der MICA bereitgestellt werden. Alternativ lässt sich ein Container auch über das lokale Web-Interface der MICA bereitstellen.

Das lokal auf der MICA ausgeführte Modell stellt nun einen Inferenz-Service zur Verfügung. Über SOAP können Bilder von einem anderen Service7 übertragen werden. Die Inferenz-Ergebnisse werden dann im XML- oder JSON-Format zur Verfügung gestellt. Mittels weiterer Services können diese mittels OPC UA, MQTT oder unterstützten Feldbusprotokollen an MES/ERP Systeme als auch Steuerungen übertragen werden.

Das DFKI ist auf dem Gebiet innovativer Softwaretechnologien auf der Basis von Methoden der Künstlichen Intelligenz die führende wirtschaftsnahe Forschungseinrichtung Deutschlands. In der internationalen Wissenschaftswelt zählt das DFKI zu den wichtigsten „Centers of Excellence“. Der Forschungsbereich Innovative Fabriksysteme (IFS) unter der Leitung von Prof. Dr. Martin Ruskowski beschäftigt sich mit Forschungsfragen rund um Industrie 4.0 und die Fabrik der Zukunft.

Carsten Harms
Carsten Harms, M.Sc., Innovative Fabriksysteme (IFS) - DFKI GmbH

1 So dauert die Trainingsphase bis zu mehreren Wochen auf Hochleistungshardware, während die Inferenz dort innerhalb weniger Millisekunden erfolgt.
2https://www.tensorflow.org/
3https://github.com/tensorflow/models/tree/master/research/object_detection
4https://github.com/tensorflow/models/blob/master/research/
object_detection/g3doc/detection_model_zoo.md

5 http://cocodataset.org
6 TensorFlow Lite ist eine auf eingebettete/mobile Geräte optimierte Version von TensorFlow.
7http://mica-container.com/

Artikel weiterempfehlen

Eingeschränktes HTML

  • Zulässige HTML-Tags: <a href hreflang> <em> <strong> <cite> <blockquote cite> <code> <ul type> <ol start type> <li> <dl> <dt> <dd> <h2 id> <h3 id> <h4 id> <h5 id> <h6 id>
  • HTML - Zeilenumbrüche und Absätze werden automatisch erzeugt.
  • Website- und E-Mail-Adressen werden automatisch in Links umgewandelt.