Ich verfolge die Fortschritte im maschinellen Lernen seit wenigen Jahren. Gerade die letzten 1,5 Jahre hat das Tempo enorm angezogen. Neuronale Netzwerke manipulieren und generieren Videos ganz nach Wunsch, es kommt beinahe Magie gleich. Die Entwicklung hat vor allem drei Konsequenzen:
- Mit wenig Aufwand können sehr echt wirkende gefälschte Videos erstellt werden, um Menschen zu täuschen. Gerade Videos mit Prominenten und Politikern bieten sich für eine maximale Wirkung an.
- Videos verlieren rapide an Beweiskraft. Bald werden sie keine mehr haben. Ich behaupte, dass Videos mit schlechter Bildqualität oder ungünstigen Aufnahmebedingungen bereits jetzt höchstens noch von Experten als falsch entlarvt werden können.
- Die einfache Verfügbarkeit der Technologie wird zu einer Schwemme gefälschter Videos führen. Die wenigsten werden der politischen Manipulation dienen. Zum Problem werden sie schlicht durch ihre Masse und Allgegenwärtigkeit werden, mit der sie uns stets daran erinnern: Wir können unseren Augen und Ohren nicht mehr trauen. In dieser neuen Welt wird unsere Fähigkeit, uns mittels hinreichend gesicherten Wissens zu orientieren, nahezu zerstört werden; hauptsächlich, weil das Vertrauen in unser Wissen und der Erwerb desselbigen sehr gestört wird.
Der letzte Punkt wirkt vielleicht, als würde er etwas weit ausholen. Jedoch muss man bedenken, dass mittels maschinellen Lernens nicht nur Bild und Ton gefälscht werden können. Auch andere Informationsquellen sind bereits betroffen und werden dies in naher Zukunft in noch stärkerem Ausmaße sein.
Eile ist geboten: Dr. Lyu Siwei, Informatik-Professor an der Universität Albany (USA) nimmt an, dass der „Point of no return“ bei diesen gefälschten Videos bereits in zwei Jahren erreicht sein wird. Ab diesem Punkt werden sie nicht mehr von echten Videos unterscheidbar sein. Das Erschreckende dabei: Dr. Siwei forscht schon seit Jahren am Enttarnen gefälschter Videos, er weiß also, wovon er redet.
Die Stimmen der Personen im oben gezeigten Video kamen immerhin noch von Menschen. Doch auch die Technik zum Kopieren menschlicher Stimmen und dem Erzeugen beliebiger gesprochener Sätze mit diesen Stimmen ist schon nahe an der Perfektion. Auf dieser Seite kann man sich Beispiele von Googles Tacotron 2 anhören und an deren Ende sogar selbst versuchen, die computergenerierten Sätze von den echten zu unterscheiden.
Mittels zusätzlichen maschinellen Lernens auf dem Gebiet der Konversation kann ein Computer mittlerweile mit Menschen am Telefon Termine vereinbaren. Ich hätte ihn nicht von einem echten Anrufer unterscheiden können. Der Schritt in den Massenmarkt folgte kurz darauf: Googles Screen Call nutzt Teile der Technik, verbindet sie mit Spracherkennung und Übersetzung und schafft damit echten Nutzwert.