Ein künstliches neuronales Netz (KNN) ist eine Ansammlung von zusammenverbundenen Punkten (Neuronen, Knoten) in einem Computerprogramm. Meist ist ein Neuron einer Schicht mit den Neuronen der zwei benachbarten Schichten verbunden. Die Verbindungen zwischen den Neuronen werden beim Training des Netzes mit Hilfe von Mathematik schrittweise gestärkt oder geschwächt, bis das Netz eine optimale Antwort auf seine Aufgabe liefert. Das heißt, die Verbindungen tragen Gewichte, die im Laufe des Trainings geändert werden.

Beim überwachten Lernen wird einem KNN beigebracht, Daten in bestimmte Klassen einzuteilen. Die Objekte innerhalb dieser Klassen hängen über bestimmte Merkmale zusammen, die für Menschen nicht immer sichtbar sind. Auch solche „verdeckten“ Merkmale kann ein KNN erfassen.

Beim Training zeigt man dem KNN der Reihe nach Bilder der verschiedenen Objekte. Bei jedem neuen Durchlauf der Signale eines Bildes mit einem Objekt sagt man dem Netz, in welche Klasse dieses Objekt gehöre. Das ist die Überwachung dabei: Der Mensch versieht die Objekte mit Etiketten (Labeln). Das ist genauso, wie wenn eine Mama ihrem Sohn im Tierpark sagt, „das ist ein Panda, und das ist ein Löwe.“ Nur reicht es einem kleinen Kind, höchstens zweimal einen Löwen gezeigt zu bekommen, damit es dann auch ganz andere Löwen als Löwen erkennt. Ein KNN muss Zehntausende, ja, Hunderttausende Bilder von verschiedenen Löwen gesehen haben, um einen neuen Löwen als Löwen zu erkennen.

Zum Beispiel soll das künstliche neuronale Netz lernen, Äpfel von Birnen zu unterscheiden. In die Eingabeschicht des Netzes werden die Tonwerte der einzelnen Pixel des ersten Bildes (mit einem Apfel oder einer Birne) eingespeist. In der Eingabeschicht gibt es so viele Neuronen, wie viele Pixel das Bild hat. Jedem Pixel und seinem Tonwert entspricht somit ein Neuron der Eingabeschicht.

Diese Signale bzw. Werte werden durch das Netz propagiert, fließen also durch das Netz, und das bei den meisten Netzen so, dass jedes Neuron seine Ausgabewerte auf alle Neuronen der folgenden Schicht schickt. Dabei setzt das Netz von Schicht zu Schicht aus den Tonwerten der Pixel immer komplexere Merkmale des Objektes auf dem Bild zusammen:

In der ersten Schicht sieht das Netz also nur Punkte bzw. Pixel, in der zweiten Schicht werden die Punkte zu Linien, Rundungen und Ecken zusammengesetzt, und so weiter und sofort, bis in der vorletzten Schicht ein apfel- oder birnenähnliches Gebilde entsteht. In der letzten Schicht meldet dann das Netz, ob es sich bei den eingespeisten Daten um die Pixel eines Apfel- oder eines Birnenbildes handelt.

Wenn das Netz das Objekt falsch erkannt hat, das heißt, eine Birne mit einem Apfel verwechselt hat, wird mit Hilfe einer mathematischen Methode, des Gradientenabstiegs, der Fehler des Netzes ermittelt. Dieser Fehler wird dann mit einem Verfahren ins Netz zurückpropagiert, das sinngemäß Backpropagation heißt.

Je mehr das Gewicht einer Verbindung zwischen zwei Neuronen zum gesamten Fehler des Netzes beigetragen hat, umso kleiner wird dieses Gewicht für den nächsten Durchlauf gemacht. Mit den Neuronen in einem KNN ist es wie mit Menschen. Wenn ein Mensch ständig Blödsinn redet, wird ihm auch nicht mehr zugehört. Am Anfang des Trainings läuft aber alles streg demokratisch: Alle Verbindungen zwischen den Neuronen bekommen zufällige Gewichte. Erst beim Training wird Spreu von Weizen getrennt – manche Neuronen tragen nun mal mehr zu der richtigen Lösung der Netzaufgabe bei als andere und werden deswegen bevorzugt.

Dann wird ein neues Bild mit einem Apfel oder einer Birne ins Netz gespeist, der Fehler des Netzes wird wieder ermittelt und ins Netz zurückpropagiert, und so weiter und so fort, bis das Netz keinen oder nur einen minimalen Fehler macht und immer einen Apfel als Apfel und eine Birne als Birne erkennt. Auch Äpfel und Birnen, die das Netz noch nie gesehen hat.

Ein solches fertig trainiertes Netz muss dann noch mit einem bestimmten Satz an Äpfel- und Birnenbildern getestet werden. Wenn das Netz auch bei den Tests verallgemeinern und nie gesehene Äpfel oder Birnen erkennen kann, ist es einsatzbereit und kann dann sogar Äpfel und Birnen unterscheiden, die wir Menschen gern miteinander vergleichen, weil wir sie eben nicht unterscheiden können.