En la década de 1960, Woodrow W. Bledsoe creó un programa secreto que identificaba manualmente puntos en la cara de una persona y comparaba las distancias entre estas coordenadas con otras imágenes.
La tecnología de reconocimiento facial ha avanzado mucho desde entonces. El campo ha evolucionado rápidamente y el software ahora puede procesar automáticamente cantidades asombrosas de datos faciales en tiempo real, mejorando drásticamente los resultados (y la confiabilidad) de la coincidencia en una variedad de casos de uso.
A pesar de todos los avances que hemos visto, muchas organizaciones todavía confían en el mismo algoritmo utilizado por la base de datos de Bledsoe, conocido como «k vecinos más cercanos» o k-NN. Dado que cada rostro tiene múltiples coordenadas, una comparación de estas distancias en millones de imágenes faciales requiere un procesamiento de datos significativo. El algoritmo k-NN simplifica este proceso y facilita la coincidencia de estos puntos al reducir considerablemente el conjunto de datos. Pero eso es solo una parte de la ecuación. El reconocimiento facial también implica encontrar la ubicación de una característica en una cara antes de evaluarla. Esto requiere un algoritmo diferente, como HOG (histogram of oriented gradients). Este tema se tratará más adelante.
El problema
Los algoritmos que se utilizan hoy en día para el reconocimiento facial dependen en gran medida de los modelos de aprendizaje automático (ML), que requieren una formación significativa. Desafortunadamente, el proceso de capacitación puede resultar en sesgos en estas tecnologías. Si la capacitación no contiene una muestra representativa de la población, ML no identificará correctamente la población perdida.
Si bien esto puede no ser un problema significativo al hacer coincidir rostros para plataformas de redes sociales, puede ser mucho más dañino cuando las agencias gubernamentales y las fuerzas del orden utilizan el software de reconocimiento facial de Amazon, Google, Clearview AI y otros.
Estudios anteriores sobre este tema encontraron que el software de reconocimiento facial sufre de prejuicios raciales, pero en general, la investigación sobre el prejuicio ha sido escasa. Las consecuencias de tales sesgos pueden ser nefastas tanto para las personas como para las empresas. Para complicar aún más las cosas, está el hecho de que incluso pequeños cambios en la cara, el cabello o el maquillaje pueden afectar la capacidad de una modelo para hacer coincidir las caras con precisión. Si no se tiene en cuenta, esto puede crear distintos desafíos al intentar aprovechar la tecnología de reconocimiento facial para identificar a las mujeres, que generalmente tienden a usar productos de belleza y cuidado personal más que los hombres.
Comprender el sexismo en el software de reconocimiento facial
¿Qué tan graves son las identificaciones erróneas basadas en el género? El equipo de WatchGuard llevó a cabo una investigación adicional sobre el reconocimiento facial, analizando únicamente los sesgos de género para averiguarlo. Los resultados fueron reveladores. Las soluciones que evaluaron fueron identificar erróneamente a las mujeres un 18% más a menudo que a los hombres.
Pueden imaginar las terribles consecuencias que podría generar este tipo de sesgos. Por ejemplo, un teléfono inteligente que dependa del reconocimiento facial podría bloquear el acceso, un oficial de policía que utilice software de reconocimiento facial podría identificar erróneamente a un transeúnte inocente como un delincuente o una agencia gubernamental podría llamar a la persona equivocada para interrogarla basándose en una coincidencia falsa. La lista continúa. La realidad es que el culpable de estos problemas es el sesgo dentro del entrenamiento del modelo que crea sesgos en los resultados.
Exploremos cómo descubrimos estos resultados.
El equipo realizó dos pruebas independientes: la primera con Amazon Rekognition y la segunda con Dlib. Desafortunadamente, con Amazon Rekognition no lograron analizar cómo funciona su algoritmo y modelado de AA debido a problemas de transparencia (aunque asumieron que es similar a Dlib). Dlib es una historia diferente y utiliza recursos locales para identificar las caras que se le proporcionan. Viene previamente entrenado para identificar la ubicación de una cara y con el buscador de ubicación de caras HOG, un algoritmo más lento basado en CPU, y CNN, un algoritmo más rápido que utiliza procesadores especializados que se encuentran en las tarjetas gráficas.
Ambos servicios proporcionan resultados de partidos con información adicional. Además de la coincidencia encontrada, se otorga una puntuación de similitud que muestra qué tan cerca debe coincidir una cara con la cara conocida. Si la cara en el archivo no existe, una puntuación de similitud establecida en baja puede coincidir incorrectamente con una cara. Sin embargo, una cara puede tener una puntuación de similitud baja y aun así coincidir cuando la imagen no muestra la cara con claridad.
Para el conjunto de datos, se utilizó una base de datos de caras llamada Caras etiquetadas en la naturaleza, y sólo investigamos las caras que coincidían con otra cara en la base de datos. Esto nos permitió probar caras coincidentes y puntuaciones de similitud al mismo tiempo.
Amazon Rekognition identificó correctamente todas las imágenes que proporcionamos. Sin embargo, cuando miramos más de cerca los datos proporcionados, nuestro equipo vio una distribución más amplia de las similitudes en los rostros femeninos que en los masculinos. Vimos más rostros femeninos con más similitudes que los hombres y más rostros femeninos con menos similitudes que los hombres (esto en realidad coincide con un estudio reciente realizado aproximadamente al mismo tiempo).
¿Qué significa esto? Básicamente, significa que una cara femenina que no se encuentra en la base de datos tiene más probabilidades de proporcionar una coincidencia falsa. Además, debido a la menor similitud en los rostros femeninos, nuestro equipo confiaba en que veríamos más errores en la identificación de rostros femeninos sobre los masculinos si se les dieran suficientes imágenes con rostros.
Amazon Rekognition dio resultados precisos pero carecía de consistencia y precisión entre rostros masculinos y femeninos. Los rostros masculinos en promedio fueron 99.06% similares, pero los rostros femeninos en promedio fueron 98.43% similares. Puede que esto no parezca una gran variación, pero la brecha se amplió cuando observamos los valores atípicos: una desviación estándar de 1,64 para los hombres frente a 2,83 para las mujeres. Más rostros femeninos están más lejos del promedio que rostros masculinos, lo que significa que la coincidencia falsa femenina es mucho más probable que la diferencia del 0,6% según nuestros datos.
Dlib no funcionó tan bien. En promedio, Dlib identificó erróneamente los rostros de mujeres más que los de hombres, lo que llevó a una tasa promedio de 5% más de mujeres identificadas erróneamente. Al comparar rostros usando el HOG más lento, las diferencias crecieron al 18%. Es interesante que nuestro equipo descubrió que, en promedio, los rostros femeninos tienen puntajes de similitud más altos que los hombres cuando usan Dlib, pero al igual que Amazon Rekognition, también tienen un espectro más amplio de puntajes de similitud que conducen a resultados bajos en precisión.
Abordar el sesgo de reconocimiento facial
Desafortunadamente, los proveedores de software de reconocimiento facial luchan por ser transparentes cuando se trata de la eficacia de sus soluciones. Por ejemplo, nuestro equipo no encontró ningún lugar en la documentación de Amazon en el que los usuarios pudieran revisar los resultados del procesamiento antes de que el software hiciera una coincidencia positiva o negativa.
Desafortunadamente, esta suposición de precisión (y la falta de contexto por parte de los proveedores) probablemente conducirá a más y más casos de arrestos injustificados, como este. Es muy poco probable que los modelos de reconocimiento facial alcancen el 100% de precisión en el corto plazo, pero los participantes de la industria deben concentrarse en mejorar su efectividad, no obstante. Sabiendo que estos programas contienen prejuicios en la actualidad, las fuerzas del orden y otras organizaciones deberían usarlos como una de las muchas herramientas, no como un recurso definitivo.
Pero hay esperanza. Si la industria puede reconocer y abordar honestamente los sesgos en el software de reconocimiento facial, se puede llegar a trabajar juntos para mejorar el entrenamiento y los resultados del modelo, lo que puede ayudar a reducir las identificaciones erróneas no solo basadas en el género, sino también en la raza y otras variables.