Datenschutz

Schau mir in die Linse, Kleines

Das neue iPhone soll bald keinen Home-Button mehr haben, sondern nur noch über die Gesichtserkennung des Besitzers zu entriegeln sein. Stanford-Forscher haben eine Software entwickelt, die anhand von Fotos erkennen kann, ob die abgebildete Person homosexuell ist oder nicht. In Berlin werden am Bahnhof Südkreuz die Gesichter aller, auch der unwissenden, Passanten gescannt und mit erfassten Gesichtern in der Polizei-Datenbank abgeglichen. Ist die Gesichtserkennung das Überwachungswerkzeug der Zukunft? Hat die Technologie vielleicht auch positive Seiten, kann sie Erleichterung in den Alltag bringen? Der Forscher Dr. Andreas Braun leitet beim Fraunhofer-Institut für Graphische Datenverarbeitung IGD die Abteilung Smart Living & Biometric Technologies. In seiner Forschung beschäftigt er sich unter anderem mit dem Thema Gesichtserkennung – und beantwortet im Interview die drängendsten Fragen.

Von Hannah Schmidt

(c) Andreas Braun

Wie erkennt ein Computer Gesichter und wie erkennt er sie wieder?

Früher war das noch einfacher zu erklären. Klassischerweise war es so, dass sich ein Computer charakteristische Punkte im Gesicht angeschaut hat, also die Augen, die Nasenspitze, wo das Kinn anfängt und so weiter. Dann hat man eine charakteristische Abmessung des Gesichts bekommen und verglichen: Wie weit sind die Augen voneinander entfernt und so weiter. Der Computer hat darauf einen Code generiert, den man vergleichen konnte.

Und was hat sich jetzt verändert?

Heute ist das ein bisschen komplizierter, weil mittlerweile fast ausschließlich das Verfahren des „Deep Learnings“ angewendet wird, eine besondere Variante des maschinellen Lernens. Man kann sich das so vorstellen, dass die Maschinen auf der Basis eines neuronalen Netzes lernen, der Computer versucht also, die Funktion des Gehirns nachzubilden, und kann dabei sehr gute Leistungen erzielen. Bei dem Verfahren nimmt der Computer nun das Bild eines kompletten Gesichts, verarbeitet es in diesem kleinen ‚Gehirn‘, und gibt am Ende einen Code aus, der in der Regel 250 Zeichen lang ist. Das Schöne daran ist dann, dass, wenn ein Bild kommt, das eine hohe Ähnlichkeit mit dem gespeicherten Bild hat, ein ähnlicher Code herauskommt.

Woraus besteht dieser Code? Wie kann man ihn lesen?

Der Code besteht eigentlich nur aus Zahlen. Der Computer hat selbst ausgesucht, was er bei dem Gesicht wichtig findet. Wir können also nicht mehr sagen: Dieser Punkt definiert einen Teil des rechten Auges, sondern es ist so, dass der Computer sich aus dem Gesichtsfeld das herausgesucht hat, was für ihn am signifikantesten ist, wo er am besten was erkennen kann.

Welche Partien sind das in der Regel?

Wir wissen in jedem Fall, dass beispielsweise die Partie ums Auge, um die Nase und alles um den Mund herum für den Computer relativ wichtig ist, und die Stirn und die Wangen dagegen nicht so sehr. Wir können nicht mehr genau vorhersagen, zu welchem Resultat der Computer kommen wird, wenn ein Gesicht ein bisschen anders aussieht. Das System ist nicht mehr so vorhersagbar wie früher. Wir nutzen es aber, weil es viel besser funktioniert.

Wie sicher erkennt denn ein Computer Gesichter auch dann, wenn sie verändert sind? Wir werden alle alt, das wäre nur ein Faktor, aber könnte es mir beispielsweise passieren, dass ich an Halloween oder Karneval geschminkt bin und dann mein neues iPhone nicht mehr entsichert kriege?

Das kann durchaus passieren. Die Systeme sind aber gerade durch das maschinelle Lernen besser geworden, im Labor haben wir Raten von über 99 Prozent was die Wiedererkennung angeht. Apple selbst spricht von einer Verwechslungsrate von einer Million zu Eins. Es gibt aber besondere Fälle, wenn Menschen sich sehr ähnlich sehen, in denen es zu Problemen kommen kann. Das hat man bei dem neuen iPhone zum Beispiel schon gesehen, dass eineiige Zwillinge gegenseitig ihre Handys entsperren können.

Sind Gesichtserkennungssysteme denn hackbar, wie beispielsweise der Fingerabdruck, durch ein Foto oder Video?

Das kann passieren, und das ist der Grund, warum Apple einen 3D-Gesichtsscan macht, weil sich eben einige 2D-Gesichtserkennungssysteme noch vor einigen Jahren mit ausgedruckten Fotos täuschen ließen.

Was passiert mit dem Bild meines Gesichts, wenn ein Computer es gescannt hat? Sie haben vorhin gesagt, es wird ein Code generiert. Wie sicher kann ich denn sein, dass mein Gesicht bzw. der Code „in“ dem Computer bleibt und nicht weiterversendet und weiterverwendet wird?

Das ist ein Punkt, auf den alle Hersteller hinweisen und auf den alle Hersteller viel Wert legen. Es ist immer schwierig festzustellen, was genau mit dem Scan passiert, aber generell sind solche mobilen biometrischen Systeme besser einzuschätzen als beispielsweise Facebook. Im mobilen Bereich ist es so, dass kein Bild von einem Gesicht oder von einem Fingerabdruck gespeichert wird, sondern nur der Code, der dazu gehört, und der wird in einer speziellen Hardware auf dem Gerät abgelegt, die auch kryptografisch gesichert ist. Nach unseren Kenntnissen findet in diesem Bereich keine Datenweiterreichung statt. Das ist anders als bei Facebook: Wenn man da ein Foto hochlädt, werden einem direkt sechs, sieben Personen vorgeschlagen, die darauf zu sehen sind.

Welche Möglichkeiten ergeben sich durch diese weiterentwickelte Form der Gesichtserkennung für die Arbeit beispielsweise der Polizei oder von Gerichten?

In Deutschland sind die Einsatzmöglichkeiten relativ beschränkt. Derzeit wird am Südkreuz in Berlin ein Test mit einem Gesichtserkennungssystem durchgeführt, die Grundidee: In solchen öffentlichen Bereichen sollen zum Beispiel Gefährder erkannt werden können, die durch die Gegend laufen. Das heißt, alle Personen, die durch so einen Bereich gehen, werden gescannt und aufgenommen, von ihren Gesichtern werden die Codes generiert und verglichen. Normalerweise, wenn man in der verwendeten Datenbank nicht gespeichert ist, wird der Code sofort wieder gelöscht. Falls doch, kann ein Sicherheitsdienst oder die Polizei alarmiert werden, die sich die Bilder noch einmal anschauen und entscheiden können, ob sie reagieren wollen oder nicht.

Das heißt aber, dass es in Zukunft passieren kann, dass ich, wenn ich mich in der Öffentlichkeit bewege, nicht einfach nur gefilmt, sondern an jeder Ecke richtiggehend „getracked“ werde, also dann eben keine anonyme Passantin mehr bin, sondern tatsächlich als die, die ich bin, erkannt und identifiziert werde. Das fühlt sich komisch an.

Diese Gefahr besteht tatsächlich in gewisser Art. Deswegen ist es wichtig, dass der Gesetzgeber darüber noch eine Hand hält. In Deutschland ist so etwas derzeit aus rechtlichen Gründen nicht denkbar, da eine solche Speicherung von Personendaten nicht erlaubt ist. Technisch ist das auch noch Zukunftsmusik, weil es voraussetzen würde, dass eine Art Hollywoodszenario umgesetzt würde: Alle Sicherheitskameras, die aufgebaut sind, müssten dann wirklich mit einer zentralen Datenbank kommunizieren. In den allermeisten Fällen sind das im Moment aber in sich geschlossene Systeme. Wenn also in einer Stadt eine Sicherheitskamera hängt, kommuniziert die mit keiner zentralen Datenbank, sondern nur mit der Stadt oder einer bestimmten Polizeidienststelle, mehr nicht.

Noch einmal zurück zu den „Nahaufnahmen“. Es gibt Studien und Untersuchungen, bei denen anhand von Mikroexpression von Sprechern in vielfach langsamer abgespielten Aufnahmen erkannt werden kann, ob sie lügen oder die Wahrheit sagen. Wäre so etwas in Zukunft per Smartphone denkbar? „Schau in meine Kamera/Brille/Kontaktlinsen, und ich sage dir, ob du lügst“?

Im Prinzip sind ähnliche Funktionen schon in vielen Smartphones oder Digitalkameras integriert. Es gibt Kameras, die darauf warten, dass man lächelt, bevor sie das Bild schießen. Da wird also eine Expressionserkennung schon gemacht, wenn auch in einer einfachen Form. In Bezug auf Mikroexpressionen und Lügendetektoren wird aber noch erforscht, inwiefern das wirklich funktionieren kann. Momentan ist das noch zu vergleichen mit klassischen Lügendetektoren, die funktionieren können aber nicht müssen. Klar ist, dass man gewisse Emotionen im Gesicht sehen kann, aber die kann man auch vortäuschen. Es gibt keine allgemeingültige Gesamtaussage, ob Mikroexpressionen wirklich die Wahrheit über eine Emotion aussagen oder nicht. Es gibt da keine höheren Sicherheiten als bei anderen Lügenerkennungssystemen.

In einer Studie, die dieses Jahr im „Journal of Personality and Social Psychology“ erschienen ist, haben Forscher von der Stanford-University eine Software entwickelt, die anhand von Fotografien von Menschen mit über 70- bis über 90-prozentiger Sicherheit erkannt hat, ob diese homosexuell sind oder nicht. Wie funktioniert denn sowas?

Die Theorie dahinter ist, dass die sexuelle Ausprägung durch gewisse hormonelle Einflüsse in der Wachstumsphase beeinflusst werden kann, was heißt, dass es biologische Ursachen für die sexuelle Ausprägung gibt, und dass diese Ursachen auch andere Faktoren beeinflussen, beispielsweise das Gesicht. Das haben die Forscher in der Studie versucht, auch maschinell zu erkennen. Man muss dazu aber sagen, dass auch der Mensch eine Trefferquote von über 50 Prozent hatte, es da also auch kein Zufall war, ob die sexuelle Orientierung erkannt wurde oder nicht. Die Maschinen waren zwar besser, aber nicht extrem viel besser. Man muss auch kritisieren, dass der Datenbestand für die Studie relativ begrenzt war, die Fotos stammten ja von einem Datingportal, wo eine gewisse Vorauswahl getroffen wurde, und zudem wurden hier 50 Prozent der jeweiligen sexuellen Ausrichtung genommen, was auch nicht dem gesellschaftlichen Mittel entspricht. Sagen wir so: Es ist den Maschinen und Menschen in dem Verfahren alles etwas einfacher gemacht worden.

Bei über 70 Prozent Trefferquote kann es also sein, dass das Zufallstreffer waren? Oder ist diese Erkennungsmethode „zuverlässig“?

Zuverlässig sind 70 Prozent ja auch nicht, das heißt, dass man bei drei von zehn Fällen falsch liegt. Im Prinzip war das System ein bisschen besser, aber die Frage, wie man so etwas wirklich sicher hinbekommen sollte, ist nach wie vor offen. Das haben die Forscher auch so gesagt, dass man nicht davon ausgehen kann, dass ein System die sexuelle Orientierung sicher erkennen kann.

Es gab ja aber einen zweiten Durchlauf. Bei dem wurden dem Computer statt nur einem fünf Bilder gezeigt. Da lag die Trefferquote teilweise bei über 90 Prozent. Wenn man jetzt einen Computer hat, der solche Ergebnisse im Hinblick auf Homosexualität erzielt, ist es doch genauso machbar, das auf andere Bereiche auszudehnen, beispielsweise die Nationalität. Dann wird es hochpolitisch.

Bezüglich der Nationalität gibt es noch keine Untersuchungen, aber Ethnien zuzuordnen ist durchaus ein Thema, das schon häufiger behandelt wurde. Das gibt es in jedem Fall, auch mit gewissen Einschränkungen was die Zuverlässigkeit angeht. Man kann natürlich die Forschung in diesem Bereich kritisieren, aber es ist natürlich so, dass die Maschinen zu diesen Dingen in der Lage sind. Bei der Stanford-University war die Forschung jetzt gut begleitet, sage ich mal, dass auch im Vorhinein dort politische und ethische Fragestellungen berücksichtigt und diskutiert wurden, es Zusatzmaterial gab und dass auch Einschränkungen des Systems diskutiert wurden. Diese Forschung kann ja aber nicht nur bei Stanford gemacht werden, sondern auch von Experten, die woanders arbeiten. Deswegen ist es in jedem Fall gut zu wissen, wo die Leistungsfähigkeit und auch die Einschränkungen des Systems sind, um die Diskussion in die richtige Richtung zu lenken.

Sie meinen, damit man weiß, wo man unter Umständen aufpassen muss?

Auf jeden Fall, wo man aufpassen muss, wo vielleicht ein Gesetzgeber frühzeitig eingreifen muss, und wo natürlich eine gesellschaftliche Diskussion gestaltet werden muss, in welche Richtung man diese Systeme in der Praxis einsetzen sollte und auch will.

Es gibt auch fiktive Szenarien zu dem Thema, die so einen Diskurs anregen. Der Schriftsteller Marc Elsberg entwirft beispielsweise das Szenario, dass Menschen in der U-Bahn sitzen und per Gesichtserkennung auf ihrer Kontaktlinse über das Gegenüber prompt alles erfahren, was er oder sie in sozialen Netzwerken über sich öffentlich gemacht hat. Wie leicht wäre das heutzutage schon umsetzbar?

Die technische Infrastruktur ist für so etwas definitiv noch nicht weit genug. Es gibt zwar erste Versuche in Richtung intelligente Kontaktlinse, aber die werden in absehbarer Zukunft in keinem Fall eine Art von Kamera integriert haben. Anhand von Smartphones lassen sich solche Szenarien aber zeigen: Wenn ein Smartphone ein Foto von einem Gegenüber aufnimmt und das bei Facebook hochlädt, dann kann es schon sein, dass Facebook dort einen Treffer findet, der gezeigt werden könnte, und dann wäre der Schritt nicht mehr weit, solche Szenarien real werden zu lassen. Deswegen ist es wichtig und richtig, dass sie aufgezeigt und diskutiert werden.

Warum sollte dieses Szenario denn Wirklichkeit werden – oder warum nicht?

Das ist eine Frage, die jeder für sich selbst beantworten muss. Es gibt da sehr viele verschiedene Meinungen zu. Vor allem in Deutschland ist der Sinn für Privatsphäre noch größer als in anderen Ländern, der USA beispielsweise oder in asiatischen Ländern. Ich halte das Szenario in Deutschland derzeit nicht für besonders realistisch, weil die deutsche Gesellschaft noch recht sensibel für solche Themen ist. Ich könnte mir aber vorstellen, dass es in anderen Ländern so kommen kann.

Welche Auswirkungen könnte so eine Realität auf das soziale Verhalten von Menschen und innerhalb von Gesellschaften haben?

Man kann sich vorstellen, dass Leute sich dem entziehen wollen, indem sie häufiger ein bisschen verkleidet oder mit verdecktem Gesicht herumlaufen, um eine Gesichtserkennung zu verhindern. Es könnte auch sein, dass Menschen versuchen, ihr Sozialverhalten entsprechend anzupassen, nur noch bestimmte Informationen in sozialen Netzwerken veröffentlichen. Es wird aber sicherlich auch einen Teil von Leuten geben, denen das alles relativ egal wäre. Es liegt also auch viel in der Eigenverantwortung beim Umgang mit persönlichen Daten.

Welche Dimensionen kann eine so detaillierte und „gute“ biometrische Erkennung, Gesichtserkennung oder Fingerabdrücke, noch erreichen? Was könnte alles mit ihr gemacht werden – an positiven Dingen?

Da gibt es einiges. Generell werden zum Beispiel in Entwicklungsländern, in denen es kein gut ausgebildetes Passwesen und keine guten Personenregister gibt, über die Biometrie solche Register aufgebaut. Es gab schon Projekte in Afrika oder Indien, wo ein Impfwesen aufgebaut wurde, das sicherstellte, dass Neugeborene richtig geimpft werden und auch nicht zu viel geimpft werden. In manchen Ländern kann man über die Gesichtserkennung erstmals eine gesicherte Identität von Leuten feststellen, weil einige Staatsstrukturen noch kein Meldewesen haben wie wir hier in Deutschland.

Wäre es möglich, in Zukunft mit dem Gesicht zu bezahlen, an der Supermarktkasse?

Warum nicht? Das ist durchaus denkbar. Es gibt schon jetzt erste Fingerabdruck-Scanner, die in Geldkarten eingebaut sind, und es gibt viele Bezahldienste, wo relativ wenig auf Sicherheit geachtet wird. Beispielsweise beim kontaktlosen Bezahlen gibt es keine Überprüfung, ob die Person, die die Karte in der Hand hält, auch wirklich die Person ist, der die Karte gehört. Da gibt es die Möglichkeit, dass man auch solche Bezahldienste rein über biometrische Verfahren lösen kann. Dabei ist es aber trotzdem hilfreich, auf einen zweiten Faktor zu setzen, also die Kreditkarte dabei zu haben und den Fingerabdruck zu geben, oder meine Geldkarte zu nehmen und mein Gesicht. Das ist ein ähnliches Konzept wie bei Reisepässen an der Grenze, dass man hier eben keine große Datenbank braucht, sondern dass das Template wirklich nur auf der Karte gespeichert ist.

In welchen Bereichen könnte die Entwicklung ins Negative ausufern?

Das Big-Brother-Szenario haben Sie ja schon ein bisschen angerissen, nicht nur im Bereich sozialer Medien, sondern generell auch im Bereich Überwachung. Einige dieser Aspekte kann man schon in China beobachten, wo die Aktivität im sozialen Netzwerk Einfluss hat auf die Kreditvergabe beispielsweise (vgl. auf dieser Seite: Die Vermessung der Welt: Rezension von „Das metrische Wir“). Dementsprechend könnte die Datensammlung noch weitergehen, man könnte genaue Bewegungsprofile von Menschen erstellen. Es gibt schon einige Gefahren, die existieren, die dann in den Bereich der persönlichen Freiheit hineingehen.

Wo könnte Gesichtserkennung das Leben in Zukunft erleichtern, beispielsweise für einen Beruf wie den Journalismus?

In Bereichen der Sicherheit kann durch Gesichtserkennung vieles erleichtert werden, wenn es beispielsweise um Zutrittskontrollen zu Veranstaltungen oder ähnlichem geht. Im Journalismus könnte es sicherlich die Recherche erleichtern, dass man über die Gesichtserkennung schnell an das Videomaterial eines bestimmten Politikers kommt, beispielsweise. Das ist nichts, was den Journalisten selbst betrifft, was aber der schnelleren Informationsfindung dienen kann. Gleichzeitig kann es aber auch zu Problemen führen, beispielsweise in Staaten, in denen Journalisten es ohnehin schon nicht leicht haben, wo dann auch unliebsame Journalisten mit ihrem Gesicht in Datenbanken gespeichert werden können.

Wann haben Sie mit der Arbeit mit dem Thema Gesichtserkennung begonnen?

Ich persönlich bin das erste Mal vor fünf bis sechs Jahren mit dem Thema in Berührung gekommen, seit knapp zehn Jahren arbeite ich beim Fraunhofer-Institut in Darmstadt, seit jetzt fast drei Jahren leite ich die Abteilung Smart Living, seit zwei Jahren ist die Abteilung für Biometrie an meine Abteilung angekoppelt. Das Darmstädter Fraunhofer-Institut beschäftigt sich seit mittlerweile 15 Jahren mit dem Thema Gesichtserkennung.

Sehen Sie Gesichter seitdem anders an?

Nein, würde ich nicht sagen. Das mag daran liegen, dass ich nicht zu 100 Prozent mit dem Thema Gesichtserkennung arbeite, sondern mich auch mit anderen biometrischen Verfahren beschäftige. Ich schaue nur mit einem anderen Blick in Gesichter, wenn ich es im Rahmen einer speziellen Untersuchung tu‘.