Computer Vision und Checkoutprozesse im Handel

8. März 2022 | Retail Technology, ReTell, What´s new in Retail

Computer Vision und Checkoutprozesse im Handel

von Julia Pott (exklusiv für EuroShop.mag)

Die automatisierte Auswertung der Videoaufnahmen durch Maschinelles Sehen (Machine Vision) oder computerbasiertes Sehen (Computer Vision) hat sich in den letzten Jahren stark weiterentwickelt. Auch im Bereich der Checkout-Kontrolle im Handel kommt sie vermehrt zum Einsatz.

Wir sprachen mit Alex Siskos, Vice president of strategy von Everseen, Toby Awalt, Director of Product Marketing bei Mashgin und Paul Dennis, Store operations expert für SAI über Bilderkennungstechnologien und ihren Einsatz im Einzelhandel: Was kann KI erkennen, wie lernt sie und wie optimiert sie Checkout-Prozesse?

Der Siegeszug von Computer Vision

In den letzten Jahren hat Maschinelles Sehen einen Triumphzug gestartet, auch im Einzelhandel. Paul Dennis berichtet uns, dass die Technologie sich in den letzten Jahren stark weiterentwickelt hat. Einen Grund für diesen Fortschritt sieht er in der Corona-Pandemie: Der Druck auf Retailer habe zugenommen, Store-Prozesse für Kundinnen und Kunden kontaktlos zu gestalten. „Die Genauigkeit der Technologie hat sprunghaft zugenommen. Aspekte wie Gesichtserkennung, die Wegverfolgung von Personen durch Geschäfte, die Erhebung und Auswertung von Daten und Erkenntnissen darüber, wie sich die Kunden in einem Geschäft verhalten und wie der Geschäftsbetrieb [ausgeführt wird], verbessern sich um das Zehnfache und werden sich auch künftig weiterentwickeln, “sagt Dennis.

Neben Anwendungen, die Personen als solche erkennen, gibt es auch Lösungen, die auf Objekterkennung spezialisiert sind. Durch die technischen Fortschritte und entsprechendes ‚Training‘ der KI sind die Einsatzmöglichkeiten für Computer Vision im stationären Einzelhandel sehr vielfältig. Grundsätzlich kann alles, was im Store vor sich geht, überwacht und analysiert werden. Das betrifft Warenlogistik und Inventur ebenso wie Arbeitsprozesse und Personaleinsatzplanung. Auch das Kundenverhalten auf der Fläche kann ausgewertet werden, um so Rückschlüsse auf die Ladengestaltung, das Category Management oder Marketingaktionen zu ziehen. Awalt resümiert: „Aus der Beobachtung des Verhaltens von Menschen – auch der anonymisierten – lassen sich eine Vielzahl aussagekräftiger Auswertungen und Erkenntnisse gewinnen.“

Links stehen Lebensmittel auf einer kleinen Plattform, rechts daneben ein Bildschirm, auf dem die Artikel aufgelistet sind

Die Kamera erkennt die Artikel und listet sie auf dem Bildschirm auf. Per Scan des QR-Codes wird die Rechnung auf das Smartphone übertragen. // © beta-web/Giese

Self-Scanning, Seamless Checkout und Verlustprävention

händler. „Fast 2 % […] der Diebstähle finden im Einzelhandel statt, und niemand wusste, wie viel Prozent davon tatsächlich auf Selbstbedienungskassen entfallen. Wenn Sie diese Zahl ausrechnen, können Sie zwischen 3.000 und 5.000 Dollar pro Geschäft und Woche einsparen.“ Siskos und Dennis bestätigen auch, dass der hauptsächliche Anlass für einige ihrer Kundinnen und Kunden aus der Einzelhandelsbranche, Computer-Vision-Technologien einzusetzen, war, dass sie Warenverluste minimieren wollten.

Gerade in Bezug auf Checkout-Prozesse – ob Self-Scanning– und Self-Checkout-Lösungen oder „unsichtbare Checkouts“, bei denen Kundinnen und Kunden mit der Ware einfach den Laden verlassen und anschließend digital die Rechnung erhalten – kann diese Technologie viel Unterstützung bieten. Genau damit beschäftigen sich auch die Firmen unserer Interviewpartner, Everseen, Mashgin und SAI. Dennis blickt zurück: „Unsere Technologie hat ihren Ursprung im Einzelhandel. Sie entstand tatsächlich aufgrund einer Anfrage eines Einzelhändlers, der uns bat, Artikel an der Kasse zu identifizieren, um die Kassen sicherer zu machen. Der Einzelhändler war besorgt, dass Artikel an den Kassen falsch gescannt [oder] gestohlen werden könnten […].“

Eine Smartwatch an einem Handgelenk mit der Aufschrift "Found Real Time Theft"

Mitarbeiterinnen und Mitarbeiter können beispielsweise per Smartwatch über Fehler im Checkout-Prozess informiert werden und diese sofort überprüfen. // © beta-web/Giese

Mithilfe der Kameraüberwachung und Maschinellem Sehen, so erklärt Dennis das Vorgehen, können Retailer einzelne Artikel erkennen und nachvollziehen, ob Kundinnen und Kunden sie mitnehmen ohne zu bezahlen. Dennis veranschaulicht das anhand eines Beispiels: „Einer der häufigsten [Vorfälle] an Selbstbedienungskassen ist, dass eine Kundin oder ein Kunde vortäuscht, einen Artikel zu scannen, es aber nicht tut. […]. Wir können das erkennen und in Echtzeit eine Nachricht an Sicherheitsleute senden, damit diese entscheiden können, was zu tun ist tun.“ Ein großer Vorteil sei, so Dennis, dass sie diese Vorgänge nicht im Labor nachstellen mussten, sondern in Echtzeit im Laden beobachten und ihre Modelle darauf aufbauen konnten.

Lernprozess der KI: Mit jedem Artikel ein bisschen schlauer

Die KI hinter Maschinellem Sehen versteht nicht von alleine, was sie da sieht. Genau wie Menschen im Laufe ihres Lebens lernen, was eine Flasche ist und wie sie unter verschiedenen gegebenen Umständen aussieht, muss auch die KI das lernen. Das funktioniert durch den Abgleich aufgenommener Bilder mit gelernten optischen Mustern und Merkmalen.

Geht es nun um Videoaufnahmen statt um einzelne Bilder, kommt ein zeitlicher Kontext hinzu: Wird die Flasche aus dem Regal genommen oder ins Regal gestellt? Hier kommen Recurrent Neural Networks (RNN) ins Spiel: Sie können aufeinanderfolgenden Bilder miteinander abgleichen und so Schlüsse ziehen.

Hierfür sind allerdings riesige Datensätze erforderlich. Und für jedes Objekt, das neu hinzukommt, müssen neue Daten generiert werden.

Siskos erklärt den Lernprozess: „[Unsere Lösung] wird in Tausenden von Geschäften und einer noch größeren Anzahl von Selbstbedienungskassen eingesetzt. Wir verarbeiten täglich fast 175 Jahre an Videomaterial. Die resultierende Datenmenge erlaubt uns, Rückschlüsse über die alltäglichen Geschehnisse im Einzelhandel zu ziehen. [Es ist] so, als würden Sie ein Auto auf der NASCAR-Rennstrecke fahren: Jedes Mal, wenn es eine Runde beendet hat, finden Sie etwas, das Sie optimieren möchten. Danach nehmen Sie die entsprechenden Verbesserungen vor und lassen das Auto wieder auf die Rennstrecke.“

Links liegt ein in durchsichtiger Folie verpacktes Kleidungsstück auf einer kleinen Plattform, rechts daneben ein Bildschirm, auf dem der Artikel als Scan in verschiedenen Positionen dargestellt wird

Das Kleidungsstück wird in verschiedenen Positionen unter der Kamera platziert und jeweils gescannt. Die KI speichert die Scans ab und baut so eine Datenbank auf. // © beta-web/Giese

Eine berechtigte Frage, die sich Retailer also stellen, ist: Wie schnell und einfach lernt so ein System neue Artikel zu erkennen? Denn je nach Handelsbranche verändert sich ein Sortiment wöchentlich, beispielsweise in Lebensmittel– oder Drogeriemärkten.

Siskos bestätigt, dass sich Händlerinnen und Händler darüber Gedanken machen: „Wenn sich bei einer Marke die Verpackung ändert, haben Sie im Grunde gleich einen brandneuen Artikel.“ Hinzu kommen weitere Herausforderungen für die KI, erklärt Awalt am Beispiel von Textilien: „Bei der Objekterkennung haben Sie es mit Herausforderungen wie faltbaren Gegenständen zu tun: Ein Kleidungsstück kann zum Beispiel verschrumpeln und andere Formen annehmen, die Sie mit einer KI nicht vorhersagen können.“ Aber auch in Bezug auf gleichbleibende Objekte braucht es einen Lernprozess, erklärt Awalt: „[Ein] dreidimensionales Verständnis von Objekten lässt uns wichtige Aspekte wie die Größe unterscheiden.” So könnten auch Artikel, die sich sehr ähnlichsehen – beispielsweise Kaffeebecher oder Flaschen unterschiedlicher Energy Drinks – durch die genauen Maße voneinander unterschieden werden.

Wichtig für das Erlernen der dreidimensionalen Objekte ist eine Vielfalt der Aufnahmen, sagt Siskos. Zunächst würden die ersten Aufnahmen einem Artikel im Kassensystem zugewiesen. „Wir müssen das Produkt in der ersten Stunde der Einführung sieben Mal durch die Kasse geben, damit wir die Zusammenhänge ableiten können. […] Und dann hilft uns die Art und Weise, wie die Menschen es handhaben, es aus jedem Blickwinkel zu verstehen.“

Bei Mashgin ist der Prozess ähnlich einfach, kommentiert Awalt: Auch hier wird – meistens durch den Scan eines Barcodes – das Objekt eindeutig identifiziert und dann in verschiedenen Positionen aufgenommen. „Wir empfehlen zwischen 20 und 50 Posen, je nachdem, wie groß Ihre Datenbank […] ist, und wie viele weitere Artikel dem entsprechenden Objekt ähneln. Liefern Sie mehr Daten, wo größere Ähnlichkeiten bestehen, und Sie werden eine Genauigkeit von bis zu 99,9 % erreichen.” Innerhalb einer Minute habe man neue Artikel hinzugefügt, meint Awalt, und diese Information stehe dann allen angeschlossenen Kassensystemen zur Verfügung.