EXCLUSIVO: Operai usó trabajadores de Kenia en menos de $ 2 por hora para que Chatgpt sea menos tóxico

Advertencia de contenido: esta historia contiene descripciones de abuso sexual

Chatgpt fue aclamado como las innovaciones tecnológicas más impresionantes de 2022 en su lanzamiento en noviembre pasado. El poderoso chatbot de inteligencia artificial (AI) puede generar texto sobre casi cualquier tema o tema, desde un soneto de Shakespeare reinventado al estilo de Megan thee Stallion, hasta los complejos teoremas matemáticos descritos en el lenguaje que puede entender un niño de 5 años. En una semana, tenía más de un millón de usuarios.

El creador de Chatgpt, OpenAI, ahora está en conversaciones con los inversores para recaudar fondos en un $ 29 mil millones valoración, incluyendo a potencial $ 10 mil millones de inversión por Microsoft. Eso haría Openai, que se fundó en San Francisco en 2015 con el objetivo de construir máquinas superintelligentes, una de las compañías de IA más valiosas del mundo.

Pero la historia de éxito no es una de Silicon Valley Genius sola. En su búsqueda para hacer que Chatgpt sea menos tóxico, OpenAI usó trabajadores de Kenia subcontratados que ganan menos de $ 2 por hora, encontró una investigación de tiempo.

El trabajo fue vital para OpenAi. El predecesor de ChatGPT, GPT-3, ya había mostrado una capacidad impresionante para unir oraciones. Pero fue una venta difícil, ya que la aplicación también era propensa a borrar los comentarios violentos, sexistas y racistas. Esto se debe a que la IA había sido entrenada en cientos de miles de millones de palabras raspadas de Internet, un vasto depósito de lenguaje humano. Ese gran conjunto de datos de entrenamiento fue la razón de las impresionantes capacidades lingüísticas de GPT-3, pero también fue quizás su mayor maldición. Dado que partes de Internet están repletas de toxicidad y sesgo, no había forma fácil de purgar esas secciones de los datos de entrenamiento. Incluso un equipo de cientos de humanos habría tardado décadas en arrastrarse a través del enorme conjunto de datos manualmente. Fue solo construyendo un mecanismo de seguridad adicional con IA que OpenAi podría frenar ese daño, produciendo un chatbot adecuado para el uso diario.

Leer más: los chatbots de AI están mejorando. Pero una entrevista con ChatGPT revela sus límites

Para construir ese sistema de seguridad, OpenAi sacó una hoja del libro de jugadas de compañías de redes sociales como Facebook, que ya habían demostrado que era posible construir AIS que pudieran detectar Lenguaje tóxico como el discurso de odio para ayudar a eliminarlo de sus plataformas. La premisa era simple: alimentar a una IA con ejemplos etiquetados de violencia, discurso de odio y abuso sexual, y esa herramienta podría aprender a detectar esas formas de toxicidad en la naturaleza. Ese detector se integraría en ChatGPT para verificar si estaba haciendo eco de la toxicidad de sus datos de entrenamiento y lo filtraría antes de llegar al usuario. También podría ayudar a fregar el texto tóxico de los conjuntos de datos de entrenamiento de futuros modelos de IA.

Para obtener esas etiquetas, OpenAi envió decenas de miles de fragmentos de texto a una empresa de outsourcing en Kenia, a partir de noviembre de 2021. Gran parte de ese texto parecía haber sido extraído de los recovecos más oscuros de Internet. Algunos de ellos describieron situaciones en detalles gráficos como abuso sexual infantil, bestialidad, asesinato, suicidio, tortura, autolesión e incesto.

El socio de outsourcing de Openi en Kenia fue Sama, una empresa con sede en San Francisco que emplea trabajadores en Kenia, Uganda e India para etiquetar datos para clientes de Silicon Valley como Google, Meta y Microsoft. SAMA se comercializa como una compañía de “IA ética” y afirma haber ayudado a levantar más que 50,000 personas fuera de la pobreza.

khadija farah para el tiempo la oficina de Sama en Nairobi, Kenia, el 10 de febrero de 2022.

Los etiquetadores de datos empleados por SAMA en nombre de OpenAi se les pagó un salario para llevar entre alrededor de $ 1.32 y $ 2 por hora, dependiendo de la antigüedad y el rendimiento. Para esta historia, Time revisó cientos de páginas de documentos internos de SAMA y OpenAI, incluidos los sueldos de los trabajadores, y entrevistó a cuatro empleados de SAMA que trabajaron en el proyecto. Todos los empleados hablaron bajo condición de anonimato por preocupación por sus medios de vida.

La historia de los trabajadores que hicieron posible chatgpt ofrece una idea de las condiciones en esta parte poco conocida de la industria de la inteligencia artificial, que sin embargo juega un papel esencial en el esfuerzo para hacer que los sistemas de IA sean seguros para el consumo público. “A pesar del papel fundamental desempeñado por estos profesionales de enriquecimiento de datos, un creciente cuerpo de investigación revela las precarias condiciones de trabajo que enfrentan estos trabajadores”, dice la Asociación de AI, una coalición de organizaciones de IA a la que pertenece OpenAi. “Este puede ser el resultado de los esfuerzos para ocultar la dependencia de la IA de esta gran fuerza laboral al celebrar las ganancias de eficiencia de la tecnología. Fuera de la vista también está fuera de la mente “. (OpenAI no revela los nombres de los outsourcers con los que se asocia, y no está claro si OpenAI trabajó con otras empresas de etiquetado de datos además de SAMA en este proyecto).

En un comunicado, un portavoz de OpenAI confirmó que los empleados de SAMA en Kenia contribuyeron a una herramienta que estaba construyendo para detectar contenido tóxico, que finalmente se incorporó a ChatGPT. La declaración también dijo que este trabajo contribuyó a los esfuerzos para eliminar datos tóxicos de los conjuntos de datos de capacitación de herramientas como ChatGPT. “Nuestra misión es garantizar que la inteligencia general artificial beneficie a toda la humanidad, y trabajamos duro para construir sistemas de IA seguros y útiles que limiten el sesgo y el contenido dañino”, dijo el portavoz. “Clasificar y filtrar dañino [texto e imágenes] es un paso necesario para minimizar la cantidad de contenido violento y sexual incluido en los datos de capacitación y crear herramientas que puedan detectar contenido dañino”.

Incluso cuando la economía tecnológica más amplia se ralentiza en medio de la anticipación de una recesión, los inversores están corriendo para verter miles de millones de dólares en “IA generativa”, el sector de la industria tecnológica de los cuales OpenAi es el líder indiscutible. El texto, las imágenes, el video y el audio generados por computadora transformarán la forma en que las innumerables industrias hacen negocios, los inversores más alcistas creen, lo que aumenta la eficiencia en todas partes, desde las artes creativas, hasta la ley y la programación de computadoras. Pero las condiciones de trabajo de los etiquetadores de datos revelan una parte más oscura de esa imagen: que a pesar de todo su glamour, la IA a menudo se basa en el trabajo humano oculto en el sur global que a menudo puede ser dañino y explotador. Estos trabajadores invisibles permanecen en los márgenes, incluso cuando su trabajo contribuye a las industrias de miles de millones de dólares.

Leer más: ai ayudó a escribir esta obra. Puede contener racismo

Un trabajador de Sama encargado de leer y etiquetar el texto para OpenAi le dijo a Time que sufría de visiones recurrentes después de leer una descripción gráfica de un hombre que tiene relaciones sexuales con un perro en presencia de un niño pequeño. “Eso fue tortura”, dijo. “Leerás una serie de declaraciones como esa durante toda la semana. Para cuando llegue al viernes, se le perturba pensar en esa imagen ”. La naturaleza traumática del trabajo finalmente llevó a SAMA a cancelar todo su trabajo para OpenAI en febrero de 2022, ocho meses antes de lo planeado.


Los contratos de SAMA

Los documentos revisados ​​por Time muestran que OpenAi firmó tres contratos por valor de aproximadamente $ 200,000 en total con Sama a fines de 2021 para etiquetar descripciones textuales de abuso sexual, discurso de odio y violencia. Alrededor de tres docenas de trabajadores se dividieron en tres equipos, uno centrado en cada tema. Tres empleados le dijeron a Time que se esperaba que lean y etiquetaran entre 150 y 250 pasajes de texto por turno de nueve horas. Esos fragmentos podrían variar de alrededor de 100 palabras a más de 1,000. Los cuatro empleados entrevistados por el tiempo describieron ser marcados mentalmente por el trabajo. Aunque tenían derecho a asistir a sesiones con consejeros de “bienestar”, las cuatro dijeron que estas sesiones eran inútiles y raras debido a las altas demandas de ser más productivas en el trabajo. Dos dijeron que solo se les dio la opción de asistir a las sesiones grupales, y uno dijo que sus solicitudes para ver consejeros de forma individual fueron negados repetidamente por Sama Management.

En un comunicado, un portavoz de SAMA dijo que era “incorrecto” que los empleados solo tenían acceso a sesiones grupales. Los empleados tenían derecho a sesiones individuales y grupales con “terapeutas de salud mental con licencia y entrenada profesionalmente”, dijo el portavoz. Se podía acceder a estos terapeutas en cualquier momento, agregó el portavoz.

Los contratos declararon que OpenAi pagaría una tarifa por hora de $ 12.50 a Sama por el trabajo, que era entre seis y nueve veces que la cantidad que los empleados de SAMA en el proyecto estaban tomando hogar por hora. Los agentes, los etiquetadores de datos más junior que constituyeron la mayoría de los tres equipos, recibieron un salario básico de 21,000 chelines de Kenia ($ 170) por mes, según tres empleados de SAMA. También recibieron bonos mensuales por valor de alrededor de $ 70 debido a la naturaleza explícita de su trabajo, y recibirían la comisión para cumplir con los indicadores clave de rendimiento como la precisión y la velocidad. Un agente que trabaja en turnos de nueve horas podría esperar llevar a casa un total de al menos $ 1.32 por hora después de impuestos, aumentando hasta $ 1.44 por hora si excedían todos sus objetivos. Los analistas de calidad, más etiquetadores mayores cuyo trabajo era verificar el trabajo de los agentes, podrían llevar a casa hasta $ 2 por hora si cumplían con todos sus objetivos. (No existe un salario mínimo universal en Kenia, pero en el momento en que estos trabajadores empleaban el salario mínimo para una recepcionista en Nairobi era de $ 1.52 por hora).

En un comunicado, un portavoz de SAMA dijo que los trabajadores se les pidió que etiquetaran 70 pasajes de texto por turno de nueve horas, no hasta 250, y que los trabajadores podrían ganar entre $ 1.46 y $ 3.74 por hora después de los impuestos. El portavoz se negó a decir qué roles laborales ganarían salarios hacia la parte superior de ese rango. “La tarifa de $ 12.50 para el proyecto cubre todos los costos, como los gastos de infraestructura, y el salario y los beneficios para los asociados y sus analistas de garantía de calidad totalmente dedicados y líderes de equipo”, agregó el portavoz.

Leer más: Las aplicaciones divertidas de IA están en todas partes en este momento. Pero se está acercando un “cálculo” de seguridad

Un portavoz de OpenAI dijo en un comunicado que la compañía no emitió ningún objetivo de productividad, y que SAMA fue responsable de administrar las disposiciones de pago y salud mental para los empleados. El portavoz agregó: “Tomamos la salud mental de nuestros empleados y los de nuestros contratistas muy en serio. Nuestro entendimiento previo era que [en SAMA] los programas de bienestar y el asesoramiento 1: 1 se ofrecían, los trabajadores podrían optar por cualquier trabajo sin penalización, la exposición al contenido explícito tendría un límite y la información confidencial sería manejada por trabajadores que estaban capacitados específicamente. para hacerlo. ”

En el trabajo diario de etiquetado de datos en Kenia, a veces aparecerían los casos de borde que mostraban la dificultad de enseñar a una máquina para comprender los matices. Un día a principios de marzo del año pasado, un empleado de SAMA estaba trabajando leyendo una historia explícita sobre el compañero de Batman, Robin, siendo violada en la guarida de un villano. (Una búsqueda en línea del texto revela que se originó en un sitio de erótica en línea, donde se acompaña de imágenes sexuales explícitas). El comienzo de la historia deja en claro que el sexo no es consensual. Pero más tarde, después de una descripción gráficamente detallada de la penetración, Robin comienza a corresponder. El empleado de SAMA encargado de etiquetar el texto parecía confundido por el consentimiento ambiguo de Robin, y solicitó a los investigadores de OpenAI para aclarar cómo etiquetar el texto, de acuerdo con los documentos vistos por el tiempo. ¿Debería el pasaje etiquetado como violencia sexual, preguntó o no? La respuesta de OpenAI, si alguna vez vino, no se registra en el documento; La compañía declinó hacer comentarios. El empleado de SAMA no respondió a una solicitud de una entrevista.

Cómo la relación de OpenAi con Sama colapsó

En febrero de 2022, la relación de Sama y OpenAi se profundizó brevemente, solo para vacilar. Ese mes, Sama comenzó a trabajar piloto para un proyecto separado para OpenAI: recolectar imágenes sexuales y violentas, algunas de ellas ilegales según la ley estadounidense, para entregar a OpenAi. t El trabajo de etiquetar imágenes parece no estar relacionado con chatgpt . En un comunicado, un portavoz de OpenAI no especificó el propósito de las imágenes que la compañía buscó de SAMA, pero dijo que etiquetar imágenes perjudiciales era “A un Paso necesario ”al hacer que sus herramientas de IA sean más seguras. (OpenAi también construye Generación de imágenes Tecnología). . Algunas de esas imágenes se clasificaron como “C4”, la etiqueta interna de Openai que denota abuso sexual infantil, según el documento. También se incluyeron en el lote imágenes “C3” (incluidas la bestialidad, la violación y la esclavitud sexual) y las imágenes “V3” que representan detalles gráficos de muerte, violencia o lesiones físicas graves, según el documento de facturación. Operai le pagó a Sama un total de $ 787.50 por recopilar las imágenes, muestra el documento.

En cuestión de semanas, Sama había cancelado todo su trabajo para OpenAI, ocho meses antes de lo acordado en los contratos. La compañía de outsourcing dijo en un comunicado que su acuerdo para recopilar imágenes para OpenAI no incluía ninguna referencia al contenido ilegal, y fue solo después de que el trabajo comenzó que OpenAI envió “instrucciones adicionales” que se refirieron a “algunas categorías ilegales”. “El equipo de África Oriental planteó preocupaciones a nuestros ejecutivos de inmediato. Sama inmediatamente terminó el piloto de clasificación de imágenes y notificó que cancelaríamos todos los [proyectos] restantes con OpenAI ”, dijo un portavoz de SAMA. “Las personas que trabajan con el cliente no examinaron la solicitud a través de los canales adecuados. Después de una revisión de la situación, los individuos fueron despedidos y se implementaron nuevas políticas de investigación de ventas y barandas “.

En un comunicado, OpenAi confirmó que había recibido 1.400 imágenes de Sama que “incluían, pero no se limitaban a, C4, C3, C2, V3, Imágenes V2 y V1 “. En un comunicado de seguimiento, la compañía dijo: “Comprometimos a SAMA como parte de nuestro trabajo en curso para crear sistemas de IA más seguros y evitar resultados dañinos. Nunca tuvimos la intención de recopilar ningún contenido en la categoría C4. Este contenido no es necesario como un aporte a nuestros filtros previos a la preparación y le indicamos a nuestros empleados que lo eviten activamente. Tan pronto como Sama nos dijo que habían intentado recopilar contenido en esta categoría, aclaramos que había habido una falta de comunicación y que no queríamos ese contenido. Y después de darnos cuenta de que había habido una falta de comunicación, no abrimos ni vimos el contenido en cuestión, por lo que no podemos confirmar si contenía imágenes en la categoría C4. ”

La decisión de Sama de terminar su trabajo con OpenAI significaba que los empleados de SAMA ya no tenían que lidiar con textos e imágenes inquietantes, pero también tuvo un gran impacto en sus medios de vida. Los trabajadores de SAMA dicen que a fines de febrero de 2022 fueron llamados a una reunión con miembros del equipo de recursos humanos de la compañía, donde les dijeron las noticias. “Nos dijeron que ellos [Sama] no querían exponer a sus empleados a ese contenido [peligroso] nuevamente”, dijo un empleado de SAMA en los proyectos de etiqueta de texto. “Respondimos que para nosotros era una forma de mantener a nuestras familias”. La mayoría de las aproximadamente tres docenas de trabajadores se trasladaron a otras transmisiones de trabajo de pago más bajo sin el bono de contenido explícito de $ 70 por mes; Otros perdieron sus trabajos. Sama entregó su último lote de datos etiquetados a OpenAi en marzo, ocho meses antes de que el contrato finalizara.

Debido a que los contratos se cancelaron temprano, tanto Operai como Sama dijeron que los $ 200,000 que habían acordado anteriormente no se pagaron en su totalidad. Operai dijo que los contratos valían “alrededor de $ 150,000 en el transcurso de la asociación”.

Los empleados de Sama dicen que se les dio otra razón para la cancelación de los contratos por parte de sus gerentes. El 14 de febrero, Time publicó una historia titulada Dentro de la choza de sudor africana de Facebook . La investigación detalló cómo SAMA empleó moderadores de contenido para Facebook, cuyos trabajos implicaban ver imágenes y videos de ejecuciones, violación y abuso infantil por tan solo $ 1.50 por hora. Cuatro empleados de SAMA dijeron que se les dijo que la investigación provocó la decisión de la compañía de poner fin a su trabajo para OpenAI. (Facebook dice que requiere que sus socios de subcontratación “proporcionen salarios, beneficios y apoyo líderes en la industria”)

Leer más: Dentro de la choza de sudor africana de Facebook

Internal communications from after the Facebook story was published, reviewed by TIME, show Sama executives in San Francisco scrambling to deal with the PR fallout, including obliging one company, a Subsidiaria de Lufthansa, que quería evidencia de su relación comercial con SAMA SCRUBED del sitio web de la empresa de outsourcing. En un comunicado a Time, Lufthansa confirmó que esto ocurrió y agregó que su subsidiaria Zerog terminó posteriormente su negocio con SAMA. El 17 de febrero, se publicó tres días después de la investigación del tiempo, la CEO de SAMA, Wendy González, envió un mensaje a un grupo de ejecutivos superiores a través de Slack: “Vamos a liquidar el trabajo de Operai”.

El 10 de enero de este año, Sama fue un paso más allá, anunciando que estaba cancelando todo el resto de su trabajo con contenido sensible. La firma dijo que no renovaría su $ 3.9 millones Contrato de moderación de contenido con Facebook, lo que resulta en la pérdida de unos 200 empleos en Nairobi. “Después de numerosas discusiones con nuestro equipo global, Sama tomó la decisión estratégica de salir de todos los trabajos de moderación de [procesamiento del lenguaje natural] y moderación de contenido para centrarse en las soluciones de anotación de datos de visión por computadora”, dijo la compañía en un comunicado. “Hemos pasado el año pasado trabajando con clientes para hacer la transición de esos compromisos, y la salida se completará a partir de marzo de 2023”.

Pero la necesidad de que los humanos etiqueten datos para sistemas de IA permanecen, al menos por ahora. “Son impresionantes, pero el chatgpt y otros modelos generativos no son mágicos: dependen de las cadenas masivas de suministro de trabajo humano y datos raspados, gran parte de los cuales no se atribuyen y se usan sin consentimiento”, escribió recientemente un ético de IA, un ético de IA, recientemente Gorjeo. “Estos son problemas serios y fundamentales que no veo abordarai abordando”.

con informes de Julia Zorthian/Nueva York