Von der Fertigung bis zum Metaversum: Computer Vision wird im Jahr 2022 jeden Bereich unseres Geschäfts- und Soziallebens beeinflussen

Im Jahr 2022 wird Computer Vision zur dominierenden Kategorie der künstlichen Intelligenz werden, da die Technologie skalierbarer und erschwinglicher für Unternehmen aller Größen und Branchen wird. Es ist schwer, alles, was passieren wird, in einem einzigen Artikel zusammenzufassen, aber hier sind vier wichtige Bereiche, in denen sich Computer Vision meiner Meinung nach in den nächsten 12 Monaten entwickeln wird.

Ein Paradigmenwechsel bei Robotergeräten

Obwohl autonome Geräte uns seit mehreren Jahrzehnten an industriellen Montagebändern begleiten, erweitert Computer Vision die Vorteile der Technologie viel weiter entlang der Lieferkette.

Der Bergbau und die Gewinnung von Rohstoffen ist ein guter Anfang. Die Verwendung von Computervision zur Klassifizierung von Erzgehalten und zur Erstellung von Geländekarten beschleunigt die Exploration und könnte bei ausreichenden Daten sogar den automatisierten Bergbau unterstützen.

In Fabriken wird Computer Vision in Form von Objekterkennung eine größere Rolle dabei spielen, Teile effizienter und zuverlässiger zu sortieren und zu verteilen als das menschliche Gehirn – insbesondere wenn es um die Organisation von Tausenden von Miniaturkomponenten geht.

Moderne Autos haben beispielsweise etwa 30.000 verschiedene Teile, darunter Radargeräte, Bildsensoren und Computersysteme. Diese nächste Generation von Fahrzeugen – autonom und elektrisch – wird eine fortschrittlichere Fließbandtechnologie erfordern, bei der Computer Vision eine noch größere Rolle spielen wird.

Wir sehen auch bedeutende Fortschritte in der Qualitätskontrolle. Computer Vision kann nicht nur den kleinsten Oberflächenfehler eines hergestellten Objekts erkennen, sondern auch Objekte zählen und einem menschlichen Bediener eine fehlende Komponente anzeigen. Das gilt für die Karosserie eines hochwertigen Automobils ebenso wie für die Anzahl der Knöpfe an einem Hemd oder die mit einem elektronischen Gerät verpackten Ladekabel.

Das Metaversum verstehen

Während Industrieroboter uns seit vielen Jahren begleiten, wurden die letzten Monate von der Metaverse dominiert, in der mehrere große Technologieunternehmen um einen Platz in den Schlagzeilen drängelten.

Viele Leute haben mich nach meiner Sicht auf die Technologie gefragt, und ich antworte immer, dass Augmented Reality, bereitgestellt über Smart Glasses, für die Mehrheit der Menschen weitaus zugänglicher sein wird, egal ob sie Anweisungen auf der Straße folgen oder virtuelle Objekte darin manipulieren eine Ingenieurwerkstatt.

Ich bin auch sehr optimistisch, dass dies dazu beitragen wird, einige der sozialen Probleme zu lösen, die mit Smartphones und Tablets einhergehen. Intelligente Handheld-Geräte halten uns im Kopf-unten-Modus, während intelligente Brillen es uns ermöglichen, Augenkontakt mit Freunden und Kollegen zu halten, während wir unser Online-Leben verwalten.

Es hilft auch, sich das Metaverse als eine Reihe von Ebenen vorzustellen, beginnend mit einer vollständig transparenten Anzeige und dann einer „gemischten Realität“, die digitale Informationen und Objekte mit der realen Welt vermischt. Endlich ein vollständiges Eintauchen, bei dem sich der Teilnehmer frei in einem virtuellen Raum bewegen kann, egal ob er sich mit Online-Kollegen trifft, Spiele oder andere Simulationen spielt.

Ein Sieg für Video

Ich glaube, dass 2022 das Jahr ist, in dem Video die Fotografie einholt, wenn es um die Anwendung von Computer Vision geht. Software auf Smartphone-Kameras hilft Endbenutzern bereits, ihr Lieblingsfoto auszuwählen oder Landschaften oder Porträts intelligent zu bearbeiten. Tatsächlich ist es wahrscheinlich, dass jedes Foto, das Sie jetzt aufnehmen, durch Computer Vision verbessert wird, es sei denn, Sie fotografieren „roh“.

Wir werden etwas Ähnliches mit Video sehen. So wie eine Kamera verschiedene Bilder je nach Kontext (Landschaft, Porträt, Sport usw.) verbessern kann, bearbeitet Computer Vision einen Clip je nach Motiv.

Dies ist besonders nützlich in sozialen Medien, wo Clips nur wenige Sekunden dauern. Stellen Sie sich vor, Sie wären ein Influencer oder Vermarkter auf TikTok und könnten aus einem zweiminütigen Clip automatisch eine zehnsekündige Bearbeitung extrahieren und zusammenfügen.

Die Software nimmt die Bearbeitung automatisch vor oder der Ersteller kann einen Ton wählen: Ruhe für eine Landschaft, Energie für Sport und so weiter. Bei Bedarf bietet es sogar eine Auswahl an Bearbeitungen, damit der Videograf oder Social-Media-Manager eine endgültige Entscheidung treffen und seine Lieblingsversion hochladen kann.

Das sind auch großartige Neuigkeiten für Medienorganisationen. Die Software kann auch verwendet werden, um Inhalte aus vielen tausend Stunden archiviertem Filmmaterial zu verbessern und zu verstärken. Medienorganisationen können ihre Inhalte mit einer Auswahl von Filtern basierend auf Mode, Sport, Geografie und vielem mehr durchsuchen. Einmal ausgewählt, können diese Clips für Dritte lizenziert oder als Werbematerial verwendet werden, das Kunden ins Archiv lockt, um nach ähnlichen Inhalten zu suchen.

Reduzierung des Datenvolumens zum Trainieren von Algorithmen

Jeder, der mit Deep Learning zu tun hat, weiß, dass eine der größten Herausforderungen darin besteht, riesige Mengen an kommentierter Daten zu benötigen, um riesige neuronale Netze zu trainieren. Dies ist seit einiger Zeit die traditionelle Art, Computer-Vision-Modelle zu trainieren. Aber wir sehen immer mehr innovative Ansätze, die maschinelles Lernen mit wesentlich weniger Trainingsdaten ermöglichen. Beispiele sind die Abkehr vom überwachten Lernen hin zu selbstüberwachtem und schwach überwachtem Lernen. Hier spielt die Datenmenge weniger eine Rolle.

Diese Technik, auch Shot Learning genannt, erkennt Objekte sowie neue Konzepte mit nicht viel mehr als 20 Bildern. Es ist ein wichtiger Durchbruch, der die Anwendung von Computer Vision erweitert, da sich Unternehmen nicht mehr auf Dritte mit riesigen Computerinfrastrukturen und Datensätzen verlassen müssen, um Konzepte zu erstellen, die genau auf die Bedürfnisse von Verbrauchern oder Geschäftskunden zugeschnitten sind.

Der Platz lässt nur die vier oben genannten Beispiele zu, aber insgesamt denke ich, dass dies das Jahr ist, in dem Computer Vision in den Mainstream-Medien so viel diskutiert wird wie künstliche Intelligenz im Jahr 2021. Was, glauben Sie, steht der Technologie noch am Horizont?