Direkt zum Inhalt
Strategie
01/04/2019

Wie Roboter sehen lernen

Der Nutzen einer KI-basierten Bildverarbeitung
Marco Braun, Strategic Technology Expert
Marco Braun
Strategic Technology Expert, Corporate Technology Development
Bin Picking

Übung macht den Meister. Aktuelle Entwicklungen im Bereich der Robotik kombinieren Lernphasen zur Erkennung und Lokalisierung von Objekten mit jenen zum Greifen dieser Objekte. Der resultierende durchgängige Lernprozess erlaubt dem Roboter, ähnlich wie ein Kind, Erfahrungen mit den Objekten zu sammeln und dabei geometrische und kinematische Eigenschaften intrinsisch und selbstständig zu lernen. Diese Fähigkeit könnte Robotern zukünftig erlauben, sich flexibler für neue Aufgaben anzupassen.

Das Erkennen und Interagieren von und mit Objekten stellt einen essentiellen Bestandteil unseres Alltags dar und wird - von uns Menschen - bereits im frühen Kindesalter über viele Trainingszyklen erlernt. Alleine die visuelle Erkennung und Lokalisierung von Objekten erfordert die Berücksichtigung situationsbezogener Größen wie den Blickwinkel, oder die Lichtverhältnisse. Das Problem beginnt aber bereits mit der Frage: Welches Pixel gehört zu welchem Objekt und wo befinden sich dieses Objekt im Raum? Bezogen auf das Kamerabild sind dies zum Beispiel Verfahren zur Erkennung von Kanten, dem Suchen von definierten Formen oder Teilbildern in einem Bild. Diese funktionieren sehr gut, wenn Rahmenbedingungen, wie gleiche Umgebungsbeleuchtung, gleiche Bauteilform, gleiche Bauteilfarben und gleiche Bauteillage erfüllt sind. In der klassischen Bildverarbeitung ist es erforderlich diese Einschränkungen vorauszusetzen, um für einen konkreten Anwendungsfall explizit geeignete Verfahren und Parametrierungen zu bestimmen. Da der zugehörige Entwicklungsprozess solcher Lösungen, je nach Aufgabenstellung, mit einem gewissen Aufwand verbunden ist, sollte von Beginn an eine konkrete Fragestellung vorhanden sein und der wirtschaftliche Nutzen sichergestellt werden.

Flexible und robuste Bilderkennung kann trainiert werden

Dank der Künstlichen Intelligenz sind in den vergangenen Jahren neue Möglichkeiten auf den Markt gekommen, die Bildverarbeitung flexibler zu gestalten. Intelligente Software zur Bilderkennung muss aber auch trainiert werden. Dabei erlaubt das Training mit großen Datenmengen dem Bilderkennungssystem – im Vergleich zum klassischen Ansatz - eine robustere Objekterkennung, da die Objekteigenschaften implizit für unterschiedliche Rahmenbedingungen gelernt wurden. Die lernfähigen Algorithmen unterteilen die Bilder in kleine Bestandteile und suchen nach Mustern in den Daten. Sind Programme zur Bilderkennung erst einmal trainiert, erledigen sie ihre Aufgabe oftmals schneller und teilweise genauer als Menschen.

Convolutional-Neural Networks (CNNs) unter anderem werden für die Objektklassifikationen, die Objekterkennung oder Segmentierung verwendet. Diese tiefen künstlichen neuronalen Netze sind beispielsweise in der Lage, durch das Training mit alltags Fotografien von Hunden und Katzen, robust diese, unabhängig der Aufnahmebedingungen (wie Lichtverhältnisse oder Umgebung), zu Unterscheiden und sogar ihren Rassen zuzuordnen. CNNs können also trainiert werden, Objekte mit uneinheitlichen Formen und Farben auch in stark variierenden Umgebungen zu erkennen. In Bezug auf die Industrie-Robotik gibt es bereits etliche Anwendungsfälle für den Einsatz von Künstlicher Intelligenz zur Handhabung von Komponenten.

Lösungen zum robusten Greifen

In der HARTING Technologiegruppe werden unter anderem Lösungen zum robusten Greifen eines Roboters von chaotisch in einem Behälter liegender Bauteile erarbeitet. Hier kommt ein Mix zum Einsatz, bestehend aus Algorithmen der klassischen Bildverarbeitung zur Vor- und Nachverarbeitung der Daten sowie Künstlicher Intelligenz zum Umgang mit schwankenden Bedingungen wie der Umgebungsbeleuchtung und Verschattung und der chaotischen Anordnung der Bauteile. Anwendungsfälle liegen im Greifen unterschiedlicher Bauteile, die als Schüttgut zur Verfügung gestellt werden, zur Weiterverarbeitung oder Verpackung. Hier kommt der Einsatz von KI zur Erkennung der Bauteilposition zum Tragen – CNN wurden angelernt, um markante Konturen auch bei schwankender Umgebungsbeleuchtung herauszuarbeiten. Diese Konturen werden dann mit klassischen Bildverarbeitungsalgorithmen weiterverarbeitet, um die Position des Bauteils relativ zum Roboter sehr genau bestimmen zu können. Mithilfe von Künstlicher Intelligenz gelingt es also, eine robuste Erkennung zu ermöglichen und Entwicklungszeit zu sparen. Anstelle eines manuellen Feintunings von Algorithmen werden die Parameter von einem CNN gelernt.

Gefaltetes künstliches neuronales Netzwerk

Convolutional Neural Network (CNN) bedeutet „Gefaltetes künstliches neuronales Netzwerk“. CNNs werden erfolgreich in der Verarbeitung von Bilddaten eingesetzt. An einem einfachen Beispiel lässt sich die Praxisrelevanz aufzeigen: Mithilfe von CNNs können beispielsweise variable Schwankungen bei Pulverbeschichtungen von Steckverbindermetallgehäusen festgestellt werden. Diese Fehlstellen können dabei immer anders aussehen und auch anders auftreten. Ist ein CNN auf das Erkennen dieser Teilstücke trainiert, kann es diese als Ausschussware schließlich aussortieren.

Dies ist nur einer von vielen möglichen Ansätzen, in denen Convolutional Neural Networks zum Einsatz kommen.

Artikel weiterempfehlen

Eingeschränktes HTML

  • Zulässige HTML-Tags: <a href hreflang> <em> <strong> <cite> <blockquote cite> <code> <ul type> <ol start type> <li> <dl> <dt> <dd> <h2 id> <h3 id> <h4 id> <h5 id> <h6 id>
  • HTML - Zeilenumbrüche und Absätze werden automatisch erzeugt.
  • Website- und E-Mail-Adressen werden automatisch in Links umgewandelt.