Det hjelper ikke å gjøre ansiktsgjenkjenning ulovlig, når teknologiens infrastrukturelle arv blir igjen.
Det kan virke som om tidevannet er på vei til å snu for ansiktsgjenkjenningsteknologi. Kontroverser – fra rasistiske og transfobe implementeringer som synliggjøres i politiets gjerninger, til privatvernsforkjempernes bekymringer rundt de milliardene av bildene som disse systemene samler inn – har satt søkelys på risikoen teknologien utgjør. Deriblant dens potensial til å øke den allerede overveldende bruken av fengsel i USA, samtidig som den opprettholder såkalt overvåkningskapitalisme.
På bakgrunn av bekymringer for sivile friheter og rasediskriminering har de amerikanske byene Oakland, San Francisco og Somerville (Massachusetts) nylig forbydd bruken av teknologien i forbindelse med rettshåndhevelse. Staten California vurderer et lovforslag for å begrense bruken av ansiktsgjenkjenning i kroppskameraer. Aktivister fra Chicago til Massachusetts har mobilisert for å forhindre utvidet bruk av ansiktsgjenkjenning, i for eksempel offentlig bolig. Det er nesten som om teknodystopien der den allestedsnærværende staten og de overvåkende foretakene kan stoppes – eller i det minste bli forsinket til neste tog.
All denne organiseringen og protesteringen er bra og viktig arbeid. Gruppene som jobber med det trenger støtte, anerkjennelse og solidaritet. Ansiktsgjenkjenning er en farlig teknologi og det er absolutt nødvendig å forby den – og i mellomtiden motstå dens normalisering. Men kun å fokusere på «ansiktsgjenkjenning» – en spesifikk teknologi og dens spesifikke institusjonelle bruksområder – innebærer risiko. Med det behandles teknologien som om den var et atskilt konsept som kan bekjempes isolert, som om det ganske enkelt kan tas vekk for å «fikse» en bestemt bekymring. Men ansiktsgjenkjenning, som alle andre teknologier, er avhengig av et bredt spekter av infrastrukturer – allerede eksisterende teknologier, praksiser og strømninger som gjør det mulig. Å stå imot ansiktsgjenkjenningsteknologi uten å se nærmere på strukturene som bygger opp under den, kan etterlate oss i en posisjon hvor vi har unngått framtidige redsler, men bare framtidige redsler.
Noen av forutsetningene for ansiktsgjenkjenningsteknologi er kulturelt og historisk forankret. Som jeg tidligere har pekt på, viser arbeidet til Simone Browne, C. Riley Snorton, Toby Beauchamp og mange andre hvor lite overraskende det er at mye av denne teknologien – som har sine røtter i et samfunn bygget på fremmedfrykt, kolonialisme og antisvarthet – er utviklet for forutinntatt og undertrykkende overvåkning. Utbredelsen av overvåkning de siste tiårene – så vel som motstanden som oppstår når den begynner å påvirke de hvite og velstående – må forstås i sammenheng med den lange historien vi har med å overvåke andre (rasifiserte, kjønnede) amerikanske statsborgere. Denne historien springer ut av et anti-kinesisk sentiment og en hang til statsorientert klassifisering (støttet av forskere og teknologer), samt en tendens til å skille ut «den andre». Dette siste kommer fram i holdninger som undergraver rettighetene til urfolk og fargede. I nyere tid har krigen mot narkotika, grensepanikken på 1990-tallet og den engstelige paranoiaen under den kalde krigen vært med på å legitimere utbredelsen av overvåkning gjennom å vekke frykten for en «farlig annen» som ønsker å skade «oss» (det vil si, normative amerikanske borgere). Denne «farlige andre» er enten så farlig at vi trenger nye teknologier eller så listig at vi ikke kan påvise den uten nye teknologier, eventuelt begge deler.
Det er denne historien som er med på å rettferdiggjøre den nåværende utviklingen av teknologier for eksklusjon og kontroll, sånn som ansiktsgjenkjenning, fingeravtrykk og andre former for sporing og biometri. Disse teknologiene – ofte først testet ved grenser, i fengsler og andre steder som er «ute av syne» – blir deretter naturalisert for å overvåke og kontrollere det «normale» så vel som det «avvikende».
Men utover de sosiokulturelle forholdene som gjør det ideologisk mulig, krever et ansiktsgjenkjenningssystem en rekke andre teknologiske systemer for å fungere. I utgangspunktet fungerte ansiktsgjenkjenning på denne måten: et enkelt statisk bilde av et menneskelig ansikt hadde punkter og linjer som ble kartlagt av en algoritme. Disse punktene og linjene, samt forholdet mellom dem, ble deretter sendt til en enorm database med eksisterende data fra andre bilder, med assosierte navn, datoer og lignende registreringer. En annen algoritme sammenlignet deretter denne ekstraherte strukturen med allerede eksisterende strukturer, og varslet operatøren dersom et eller flere matchende fotografier ble funnet. For å gjøre dette mulig trengte vi kulturelle konvensjoner og normer (som å framvise ID-kort på forespørsel og akseptere nærværet av CCTV-kameraer), men også teknisk infrastruktur. Det vil si: disse algoritmene, databasen, maskinvaren de kjørte på og kablene som koblet dem til en operatør og utstyret deres.
Dessverre (eller heldigvis) fungerte ikke denne tilnærmingen til ansiktsgjenkjenning særlig bra. Så sent som i denne rapporten fra 2010 om hvorvidt belysning påvirket algoritmenes nøyaktighet, kom det fram at selv den best fungerende algoritmen hadde en falsk positiv rate på 15 prosent i «ukontrollerte» omgivelser (dvs. ethvert miljø med lysforhold som er mindre konsistente enn de vi finner i en passfotoboks). Årsaken til at du må ha samme ansiktsuttrykk på samme bakgrunn på hvert passbilde er ikke bare fordi utenriksdepartementet vil at du skal lide (selv om du helt klart gjør det). Det er fordi algoritmer for ansiktsgjenkjenning i veldig lang tid var helt ute av stand til å håndtere selv små forskjeller i vinkel på hodet eller belysning, mellom et «kildefoto» og et «målfoto».
Siden da har teknologien blitt forbedret, men ikke på grunn av finjusteringer av algoritmene. Snarere har det siste tiårets enorme økningen av høyoppløselige kameraer, inkludert videokameraer, ført til en overhaling av hvordan ansiktsgjenkjenningsteknologien fungerer. I stedet for å være begrenset til et enkelt uklart bilde av en person, kan ansiktsgjenkjenningssystemer nå ta beslutninger på bakgrunn av sammensatte bilder fra en serie videostillbilder i en sekvens. Dette utjevnet noen av de verste utfordringene med belysning og vinkel, noe som dermed gjorde den tradisjonelle tilnærmingen brukbar. Så lenge du hadde video av høy kvalitet i stedet for et enkelt pikselert CCTV-bilde, kunne du korrigere de fleste av problemene som oppstod med ukontrollerte opptak.
Dette tok forskerne enda et steg videre. Da de innså at de hadde en masse sekvenser med bilder av høy kvalitet tilgjengelig fra disse nye (høyoppløselige, video-baserte) kameraene, bestemte de seg for å skrive algoritmer som kunne mer enn å klippe ut ansiktet fra et bestemt bilde og vurdere dette gjennom punkter og linjer. De kunne nå også rekonstruere ansiktet som en 3D-modell som kunne bli justert etter behov, for å få det til å «passe» med vinkelen og forholdene til ethvert bilde det måtte bli sammenlignet med. Denne tilnærmingen førte til en massiv økning i nøyaktigheten til ansiktsgjenkjenning. Framfor nøyaktighetsprosenten på 85 prosent i det «ukontrollerte opptaket» som engang hersket, fant forskere i 2018 som testet opp mot 10 datasett (inkludert standardsettet som er produsert av den amerikanske regjeringen) en nøyaktighetsprosent på 98 prosent på det verste.
Dette nivået av nøyaktighet i nåværende ansiktsgjenkjenningsteknologi får myndigheter til å drømme om et idealisert, allestedsnærværende system for sporing og observering. Et som fusjonerer allerede eksisterende CCTV-systemer og ny «smart» byteknologi (som San Diegos standard integrering av kamera i sine nye gatelys) som skal spore individer fra sted til sted, for å produsere arkiver som kan monitoreres og analyseres i ettertid. Men for å kjøpe seg inn i denne drømmen – og akseptere ansiktsgjenkjenningsteknologi – må en by også ofte akseptere et nettverk av HD video kameraer som strømmer data inn i sentrale depoter hvor den kan lagres ad infinitum og finkjemmes for å finne dem som til enhver tid identifiseres som «mistenkelige».
Maskinvaren de kjører på følger alltid med en algoritme (eller, i tilfellet med Amazons Ring: gratis maskinvare pour encourager les autres). Det finnes ingen enkeltstående ansiktsgjenkjenningsalgoritme, de avhenger av en bestemt maskinvare, en bestemt programvare, en bestemt infrastruktur. Og når den infrastrukturen først er fastsatt, vil den alltid innebære et potensiale for ansiktsgjenkjenning, uavhengig om ansiktsgjenkjenning er forbudt eller ikke. Den kan også jevnlig gjenbrukes til andre overvåkningsformål.
Alle de involverte lagene av infrastruktur gjør ansiktsgjenkjenningsteknologi vanskelig å forhindre. San Franciscos lovbestemmelse, for eksempel, forbyr ansiktsgjenkjenning rent ut, men er mye mer overbærende når det gjelder kameranettverkene og databasene som fôrer algoritmene. Hvis en by introduserer ansiktsgjenkjenningsteknologi og du bruker et år på å demonstrere mot den og vinner, er det flott, men byen har fremdeles utallige videokameraer som logger aktiviteten i offentlige rom og lagrer dette i gud vet hvor lang tid. Det sitter fremdeles folk og overvåker disse bildene også. Denne prosessen er kanskje mye mindre effektiv enn ansiktsgjenkjenning, men det er fremdeles slik at vi bare har lyktes med å bytte ut analyseringsteknologi med en kei politibetjent, og slike skapninger er ikke akkurat kjent for deres dype engasjement for antirasisme. Og dette er ikke hypotetisk: 24/7 overvåkning av direktesendte, integrerte videostrømmer er nøyaktig hva Atlanta driver med.
Utover det: å forlate skjelettet til overvåkningsinfrastrukturen intakt betyr ganske enkelt at den kan gjenoppstå. Alle som ser skrekkfilmer, vet at monstre har en stygg tendens til å være bemerkelsesverdig motstandsdyktige. Det samme gjelder overvåkningsinfrastrukturen. Ansiktsgjenkjenning er forbudt i Somerville nå. Om et valgs tid, hvis en nativistisk vind blåser i feil retning, kan det brått ikke lenger være tilfellet. Og dersom byen brukte teknologien før de forbød den og har latt infrastrukturen være intakt, påskrudd og i opptaksmodus, vil den være i stand til å overvåke mennesker, ikke bare i framtiden, men i fortiden. Dersom teknologien blir lovlig vil det bli alminnelig å analysere opptak fra fortiden og trekke ut data om dem som vises i den. Dette gjør kjent det Bonnie Sheehey har kalt «temporal regjering», der en må, selv i fraværet av algoritmisk overvåkning, operere som om det forekommer, fordi de samme forutinntatte praksisene muligvis blir gjenopptatt i framtida. Og når ansiktsgjenkjenning er så billig og lett tilgjengelig som en enkelt programvareoppdatering, tar det ikke lange tiden å skru det på igjen.
Heldigvis kan samme metode brukes til å drepe et monster i en skrekkfilm og ansiktsgjenkjenning: fjern hodet eller ødelegg hjernen. Det betyr: eliminer infrastrukturene som teknologien er avhengig av – infrastrukturer som i mellomtiden kan brukes til mindre effektive, men fortsatt farlige former for sosial kontroll. Å forby ansiktsgjenkjenning formelt er absolutt en start, men det gir bare varig beskyttelse dersom du planlegger å skrive ut lovbestemmelsen og lime den over hvert eneste overvåkningskamera som allerede er installert. Vi må rive ut kameraene, koble fra serverne. Selv «bare» et nettverk av konstant påskrudde, evig lagrende HD-kameraer er for mye – og et slikt nettverk etterlater oss langt mer utsatt for ansiktsgjenkjenningsteknologiens gjenoppstandelse enn vi var før installasjonen av dem.
Det er ikke noe galt med taktikken til aktivistbevegelsene som retter seg spesifikt inn mot ansiktsgjenkjenning: å protestere, organisere, tvinge staten til åpenhet og bruke det til å stille kritiske spørsmål og spre kunnskap om overvåkningspraksiser er både godt og effektivt arbeid. Men det vi trenger å gjøre er å forsikre oss om at vi plasserer denne teknologien i en kontekst, at vi ikke bare bekjemper ansiktsgjenkjenning, et enkeltstående symptom på en større sykdom, men hele sykdomsbildet. Vi bør jobbe for å forby ansiktsgjenkjenning, og vi skal feire når vi lykkes – men vi bør også forstå at «suksess» ikke bare er å begrave teknologien. Suksess er å finmale beina, slik at skjelettet aldri kan gjenoppstå.