Una herramienta peligrosa en manos equivocadas
Los límites de la tecnología pueden resultar todo un dolor de cabeza en algunas ocasiones. Es tal el perfeccionamiento que se produce con los constantes avances, que a veces se torna verdaderamente difícil en las redes sociales distinguir entre un evento real y un material producido con inteligencia artificial. Más aún en los casos donde se mira, escucha o lee algo sin prestar demasiada atención, allí las producciones “falsas” se escurren con notablemente facilidad. En esta línea, las deepfakes que suelen circular por las plataformas digitales reflejan este fenómeno.
Este concepto mencionado hace alusión a aquellas imágenes, videos o audios de personas que a simple viste aparentan ser reales, pero que sin embargo cuando se comienzan a analizar minuciosamente se logra percibir la intervención de la inteligencia artificial. Por ejemplo, un video de una celebridad realizando una acción atípica. De esta manera, las deepfakes suelen alcanzar un gran número de interacciones en las plataformas debido a que suelen generan múltiples emociones en los usuarios (risa, enojo, tristeza, etc.).
Acerca de este mecanismo, si bien puede parecer novedoso debido a su gran perfeccionamiento en los últimos años, la realidad es que es un recurso de edición que cuenta con algunas décadas. De hecho, en 1997 ya existía un programa llamado “Video Rewrite”, el cual permitía modificar las imágenes de un video para hacer creer que una persona expresaba oraciones que nunca habían salido de su boca. Más allá de ello y las mejoras actuales de las deepfake, hoy también pueden ser detectables si se observa con atención algunos detalles puntuales, como por ejemplo el parpadeo de los ojos.
Cómo trabaja la inteligencia artificial para su producción
A la hora de hablar sobre la construcción de estas imágenes o audios falsos hay que destacar que este tipo de tecnología está ligada a la rama de la inteligencia artificial denominada aprendizaje profundo. Allí radica la explicación de su nombre, “deep” hace referencia al “deep learning” (aprendizaje profundo), mientras que “fake” remite a algo falso.
Continuando con esta explicación, este tipo de producciones utilizan Redes Neuronales Generativas Adversarias, también llamadas GAN. Comprender este aspecto es clave ya que es la tecnología responsable del nivel de perfección de estas producciones. Dicho de forma simple, aquí dos redes neurales “compiten” entre sí intentando generar una imagen que se asemeje tanto a lo real (es decir, a sus datos de entrenamiento), que la otra no pueda diferenciar cuál es la generada y cuál la real. Por lo tanto, el proceso finaliza cuando estas redes no son capaces de distinguir.
Como último punto respecto a los mecanismos utilizados para la creación de estos materiales falsos, quienes se dedican a producirlos comienzan reuniendo imágenes, videos o audios de las personas que buscan recrear; más tarde utilizan un modelo GAN para entrenar a la IA, así como también ajustan el modelo en base a las pruebas que van realizando; y finalmente remplazan el rostro utilizando el modelo GAN.
3 claves para detectar un deepfake
El fácil acceso a la producción de estas imágenes falsas ha generado la propagación de las mismas mediante las redes sociales y otro tipo de plataformas digitales. A continuación podrás diferenciar cuándo se trata de una deepfake y cuándo de una imagen real.
Cantidad de parpadeos
Si bien fue mencionado con anterioridad, el movimiento de ojos en una deepfake es uno de los puntos clave para dar cuenta de la edición. De manera frecuente aquí el parpadeo se ve un tanto forzado o poco natural. Además, el número de veces que los ojos se abren y se cierran es bastante reducido al compararlo con el de personas reales. Incluso, en el año 2021 investigadores de la Universidad de Buffalo desarrollaron una herramienta para identificar de forma automáticas las deepfake con solo analizar los ojos.
Movimiento de la boca
Uno de los mayores desafíos que se le presentan a la inteligencia artificial a la hora de desarrollar estos materiales radica en recrear correctamente la boca de las personas. Por un lado, muchas veces el movimiento de los labios no está completamente sincronizado con el audio, y también suelen encontrarse muchos errores al interior de la boca. Lo que ocurre aquí es que los dientes o la lengua suelen ser predeterminados y dejan notar la intervención de la tecnología.
Detalles pequeños pero evidentes
Finalmente, existe una serie de pequeñas observaciones críticas que se pueden realizar al visualizar estos videos o imágenes. Uno de ellos son los mínimos saltos que se pueden percibir en la transición de un gesto o en cambios de iluminación extraños. Así también, también se utilizan contornos borrosos o un efecto que quita arrugas e imperfecciones en la piel para facilitar la edición.
Otro aspecto a notar se centra en la duración de los videos. Si bien no es una regla que se mantiene siempre, al necesitar de un proceso de aprendizaje y tiempo de trabajo, los videos no suelen ser demasiado largos. Por último, cabe señalar que reproducir el contenido en una velocidad reducida puede ayudar a notar con facilidad todos estos detalles mencionados.