El código caníbal. Sobre el círculo vicioso de la Inteligencia Artificial, Ilya U. Topper

16 septiembre, 2024 Artículos, n.º 70 - verano 2024

Lunes, 16 de septiembre de 2024.

No me preocupa la Inteligencia Artificial sino la estupidez humana. No sé quién acuñó la frase, pero define perfectamente el problema al que nos enfrentamos.

Si un texto escrito ―o traducido― por un programa de inteligencia artificial es indistinguible de uno redactado por un ser humano, la mano de obra humana se vuelve innecesaria y puede ser reemplazada por la máquina, más barata. Ya estamos ahí: muchas universidades están invirtiendo en filtros para averiguar si un texto entregado por un estudiante ha sido escrito por una persona o por una máquina. La máquina ya imita a la perfección el estilo humano, nos dicen.

Pero es al revés. Las universidades llevan tiempo enseñando a los estudiantes a citar a autoridades y a copiar referencias en lugar de pensar por su cuenta. Lo sabe cualquier doctorando de humanidades: puedes dedicar meses a tomar apuntes en algún pueblo norteafricano; en la tesis que entregas, cada frase debe ir corroborada con una cita de alguna autoridad de Harvard o Stanford.[1] Tu profesor eliminará toda observación propia sin respaldo en la literatura, por indemostrable y por posible causa de que te nieguen el cum laude. Si un texto académico escrito por un programa no se diferencia del redactado por un humano es porque un texto académico está basado en copiar. Un programa no puede salir a la calle y apuntar un hecho nunca antes observado. Si el texto humano es indistinguible, es porque los humanos (académicos) han renunciado a hacerlo.

Traducir es rumiar: hay un texto original que debemos reproducir. Y cuando tengamos dudas sobre la traducción de un término, recurriremos a ejemplos de la literatura para ver cómo lo han interpretado otros. Copiamos el sentido del original, los significados del diccionario, las soluciones de nuestros predecesores. Traducción, podemos pensar, será el primer oficio en el que la mente humana sea sustituida por la máquina. No sería de extrañar. Han desaparecido desde el oficio de lavandera al de segador, y el drama humano que conlleva se olvida en una generación, salvo si deja huella literaria, como el de Los tejedores.[2] ¿Tocará a los traductores ahora?

Hay motivos para pensar que no. Y no porque la Inteligencia Artificial no sea capaz, teóricamente, de resolver cualquier problema de traducción igual que una mente humana, sino porque es demasiado capaz. O porque parece demasiado capaz. Ha alcanzado un éxito público antes de tiempo. Si esto fuera una guerra clásica entre humanos y máquinas, diríamos que en su avance triunfal las tropas maquinarias han caído en una emboscada: se han adentrado tanto en territorio enemigo (humano) que ya no tienen manera de proteger sus líneas de aprovisionamiento. Que son, como sabemos desde Clausewitz, el nervio de toda guerra.

No estamos asistiendo en estos momentos a la victoria de la Inteligencia Artificial sobre pequeños grupos de resistencia humana que luchan denodadamente por un último encargo editorial. Lo que estamos viendo es un ejército de algoritmos perdidos en un territorio desconocido, sin suministro fiable, y donde están empezando a comerse unos a otros. Abra usted en internet una página traducida o escrita con Inteligencia Artificial: será testigo de un incipiente canibalismo entre códigos informáticos.

Joven escribiendo con una máquina Sholes y Glidden, grabado de Ten Eyck publicado en 1872. Fuente, Wikimedia Commons

La clave de toda Inteligencia Artificial es el aprendizaje y la capacidad de comparar en fracciones de segundo un enorme número de soluciones previamente utilizadas. Si a un generador de imágenes le pedimos dibujar un caballo, el algoritmo constata que casi todo lo que se denomina «caballo» es un cuadrúpedo marrón con crines y cola. Pero si le pedimos dibujar una dosis de caballo, probablemente dibujará en un futuro cercano un polvillo blanco con una cuchara (aún no, como acabo de comprobar: aún no domina el español). El traductor automático funciona de forma similar: cada palabra tendrá un significado condicionado por las demás palabras que la rodean. Si le exigimos traducir el término alemán Mäuse, dirá ratones, pero si escribimos «20.000 Mäuse», los ratones se convierten en pavos. Porque Mäuse es uno de los muchos sinónimos de ‘dinero’ en jerga alemana y el algoritmo ha aprendido que en proximidad de un numeral elevado, el término se refiere con cierta probabilidad a billetes y no a roedores. Cierta probabilidad: si vamos variando el verbo usado en la oración, la solución ofrecida salta entre ratones y dólares de forma no del todo arbitraria: cuanto más se parezca la frase a lo que realmente diría un maleante a otro en un oscuro negocio, más frecuente es la opción «dólares». Eso es que la máquina ha leído mucha novela negra. Mucha novela negra traducida del inglés, colijo, porque si fuese alemana original, diría marcos o euros.

No me gustaría ser una máquina: tiene que decidir en un instante si la probabilidad de «dólares» es más alta que la de «ratones» o viceversa y solo puede recurrir a las combinaciones de palabras creadas anteriormente por otros, accesibles en su memoria interna o en esa vasta pradera que es internet. Y en esa pradera empiezan ahora a proliferar a una velocidad endiablada las traducciones automáticas. Son malas hierbas, pero la máquina no lo sabe.

Ignoro si los desarrolladores de los programas de traducción más conocidos, como Google Translate o DeepL (curiosamente, en el ejemplo de Mäuse, no se aprecia una clara ventaja del segundo, de mejor fama, sobre el primero) están colocando algún filtro para evitar la trampa mortal a la que se enfrentan. Pero hay un recurso, hasta hace poco muy apreciado en la profesión, que ya acusa los síntomas del proceso: Reverso Context,[3] un localizador de palabras y expresiones en su contexto. No aventura traducciones sino que aporta precedentes. Me ha sido muy útil para verificar en segundos cuál es el adjetivo correcto para traducir «desarrollo sostenible» al árabe: si no estás inmerso en el mundo de las ONG, corres riesgo de escribir «desarrollo duradero», «perdurable», «permanente»…, opciones léxicamente válidas, pero erróneas. Reverso Context me ahorra la búsqueda de ensayos del PNUD en árabe y me ofrece una lista instantánea de veinte o treinta muestras de texto, a todas luces copiadas del archivo de la ONU, y casi todas coincidiendo en el mismo adjetivo. Ese es el más utilizado, es decir, el correcto.

La frecuencia indica corrección. Es decir: un error repetido se convierte en acierto. Por supuesto, así es como funciona la evolución de todo idioma ―la Real Academia lleva siglos validando errores, desde orquesta y cocodrilo hasta sánguche y okupar―, pero en este caso, el proceso ocurre fuera del alcance de los hablantes. Una mala traducción, perpetrada por algún voluntarioso inepto, quizás con ayuda de un programa en sus (espantosos) inicios, y difundida en internet, se convierte en un elemento más de la estadística; si no hay suficientes contraejemplos, será reproducida por otro programa, ganando puntos… hasta convertirse en mayoría. Con términos unívocos como «desarrollo sostenible» no ocurrirá, pero busquen en Reverso Context la expresión «en el quinto pino». En inglés compiten como medallistas «in the middle of nowhere», «in the boondocks» y «in the boonies», las tres referidas a un lugar alejado de la civilización o, al menos, de todo centro urbano; en francés predomina «dans la cambrousse», igualmente referencia a un lugar perdido en medio del campo, y en alemán «in der Provinz», que designa un lugar alejado de la capital, con vida poco animada y hábitos tradicionales. Ninguna de ellas se puede usar en un diálogo sobre un local urbano ubicado a una distancia considerable, que exige una desaconsejable caminata. En un extraño reverso de esta dinámica se encuentra incluso una voz que asegura de un distrito de París: «Es mi casa, mi tierra, mi quinto pino». (El original en francés era «mon bled», que describe a menudo un pueblo en la provincia profunda, pero que aquí mantenía su sentido original magrebí: mi terruño).

En justicia, no todos estos errores son achacables a traducciones automáticas; hay mucho humano que traduce peor que Google ―algunos de los ejemplos registrados en Reverso Context contienen errores ortográficos y gramaticales que un programa jamás cometería―, pero su difusión en internet convierte textos indignos de llamarse traducción en parte del suministro que alimenta a la máquina. Al igual que lo hacen millones de páginas creadas ―no traducidas― con Inteligencia Artificial, igualmente alimentadas por el mismo flujo contaminado. Puede que engañen, pero el resultado alcanzado por cotejar y fusionar miles de elementos publicados anteriormente se está manifestando ahora ya en las imágenes que acompañan estas redacciones: ahí está el ejemplo de un alimoche de tres alas sobrevolando las gargantas del Duero,[4] un clásico efecto de superponer demasiadas fuentes. La página (que también describía esta especie de buitre como un ave acuática de canto melodioso) fue desactivada tras un público escarnio en internet, pero de no haber escarnio, es decir de no haber aún una masa crítica humana que vigila el aprendizaje, habría pasado a formar parte, como elemento estadístico, de la enciclopedia ornitológica artificial.

Sin supervisión humana, el aprendizaje idiomático de la máquina se convierte en un círculo vicioso en el que errores, construcciones de estilo espantosas y fórmulas manidas se retroalimentan hasta crear una amalgama muy alejada de lenguaje real. Podemos estar ya en el punto en el que se ha interrumpido el paulatino acercamiento del lenguaje de máquina al humano ―la meta era ser indistinguible― y se ha alcanzado una meseta en la que se ha vuelto fácil diferenciar un idioma de otro, sin avance posible.

Cabe imaginar tres perspectivas de futuro. Puede ocurrir que los programadores humanos reconozcan el problema y tomen medidas, por ejemplo vetando a sus programas el aprendizaje en internet y alimentándolos a mano con millones de libros digitalizados del siglo XX, una especie de chute de sangre oxigenada. Quedaría por ver el sobrecoste que tendría un programa afinado de esta manera y si no sería más rentable para una editorial seguir pagando a un traductor humano.

También puede ocurrir que se vayan estableciendo dos sectores sociales, uno dispuesto a pagar libros traducidos por humanos, el otro consumiendo a bajo coste textos maquinales, y que las editoriales ofrezcan ambas versiones, como antes lanzaban ediciones encuadernadas y de bolsillo. La comparación cojea, porque la diferencia entre cuero y cartón es epidérmica, mientras que una construcción gramatical moldea las formas de expresarse y, finalmente, de pensar.

Por eso es también posible que, quizás tras una fase de segregación, la mayoría de la sociedad vaya adaptando su lenguaje al de la máquina hasta que sea el universalmente usado. Hay un precedente en el idioma utilizado para el doblaje de las películas de Hollywood y no digo ya las series: es difícil encontrar en la filmografía traducida un diálogo que se parezca al castellano habitual, empezando por los espantosos intentos de imitar el argot norteamericano. Hasta hace pocos años era fácil identificar una traducción en cuanto apareciera una frase como «Arranca el jodido coche» (absurda, porque si un coche se ha jodido, no puede arrancar); hoy el adjetivo enfático se ha convertido en recurso habitual en textos escritos originalmente en español. Una nueva variedad del idioma que algunas colegas llaman traductés,[5] aunque yo me inclinaría por el término doblajés: no es, me parece, el gremio de la traducción literaria el que tiene la culpa.

Las máquinas nunca hablarán como nosotros, pero es posible que algún día hablemos todos como las máquinas.

O tal vez no. Si aún hoy podemos distinguir en cualquier diálogo de telenovela el distintivo olor a tarta de manzana que emana de los pronombres superfluos y la maraña de los «de ello», es porque el doblajés, pese a décadas de televisión diaria, no se ha impuesto en el habla, aparte ciertas (jodidas) expresiones. Su reino son los estudios de producción donde probablemente se hereden plantillas de sintaxis y vocabulario prefabricados, pero fuera de la pantalla, ni el actor de doblaje habla así. Posiblemente, para mantener vivo el oficio de traducción, no tengamos que hacer más que repantigarnos en la silla ―eso sí es un calco tosco, si bien cómodo, del inglés― y esperar a que los códigos de la Inteligencia Artificial, con la inestimable ayuda de la estupidez humana, se devoren entre ellos. No será un espectáculo edificante. Pero los idiomas humanos sobrevivirán. Y con ellos, el oficio de traducir.

[1] Cf. Ilya U. Topper, «La rebeldía y el corsé». MSur, 26 Oct. 2023.

[2] Gerhart Hauptmann, Die Weber (1892).

[3] Reverso Context.

[4] La página ha sido eliminada, pero la imagen aún está accesible.

[5] María Teresa Gallego Urrutia: «El viaje del lector». El Trujamán, 26 julio 2016.

Ilya U. Topper (Almería, 1972) es periodista. Criado entre Marruecos y España, se ha especializado en el mundo árabe e islámico. Actualmente trabaja como corresponsal de la Agencia EFE en Estambul. Desde 2009 coordina la revista digital MSur, dedicada a política, arte y literatura de las sociedades alrededor del Mediterráneo, para la que traduce regularmente textos del árabe, francés, inglés y alemán. Desde 2010 dirige las prácticas de los estudiantes del Máster de Traducción e Interculturalidad con la Universidad de Sevilla en esta revista. Es autor del libro Dios, marca registrada (Hoja de Lata, 2023) sobre religión y laicismo.

El código caníbal. Sobre el círculo vicioso de la Inteligencia Artificial, Ilya U. Topper

Artículos relacionados

1 Comentario