Crowdsourcing and ethics for Natural Language Processing - Archive ouverte HAL Access content directly
Habilitation À Diriger Des Recherches Year : 2022

Crowdsourcing and ethics for Natural Language Processing

Myriadisation et éthique pour le traitement automatique des langues

(1, 2)
1
2

Abstract

In the past ten years, Natural Language Processing (NLP) has undergone two revolutions : the extreme shortening of the distance between research outputs and the end user and the advent of deep learning. As a result, data needs have exploded alongside ethical issues. This "habilitation à diriger des recherches" presents the work I have carried out in the field of the production of manual annotations for NLP by crowdsourcing, in particular using games with a purpose, and in that of ethics for the TAL. I redefine crowdsourcing and citizen science in general and I present in detail the games with a purpose, their strengths and their limits. I focus more particularly on ZombiLingo, which was used to collect dependency syntax annotations for French, and RigorMortis, a game aiming at collecting multiword expressions (MWE). In the last part, I focus on ethics for NLP, a sub-field that was only truly recognized from 2016 and of which I was a forerunner. I return to its history, its recent evolution and present my work, carried out in a more deontological than consequentialist perspective, allowing to have a systemic vision of NLP and the ethical problems it poses.
Le traitement automatique des langues (TAL) a subi deux révolutions ces dix dernières années : le raccourcissement extrême de la distance entre les productions de la recherche et l’utilisateur final et l’avènement de l’apprentissage profond (deep learning). En conséquence, les besoins en données ont explosé en parallèle des questions éthiques. Cette habilitation à diriger des recherches présente les travaux que j’ai menés dans le domaine de la production d’annotations manuelles pour le TAL par myriadisation (crowdsourcing), en particulier par le jeu (games with a purpose), et dans celui de l’éthique pour le TAL. J’y redéfini la myriadisation et les sciences participatives en général et je présente en détail les jeux ayant un but, leurs atouts et leurs limites. Je m’attarde plus particulièrement sur ZombiLingo, qui a servi à collecter des annotations en syntaxe de dépendances pour le français et RigorMortis, un jeu d’annotation d’unités polylexicales. Je me concentre dans une dernière partie sur l’éthique pour le TAL, un sous-domaine qui n’a véritablement été reconnu qu’à partir de 2016 et dont j’ai été précurseure. Je reviens sur son historique, son évolution récente et présente mes travaux, menés dans une optique plus déontologiste que conséquentialiste, permettant d’avoir une vision systémique du TAL et des problèmes éthiques qu’il pose.
Fichier principal
Vignette du fichier
hdr_kf (1).pdf (8.52 Mo) Télécharger le fichier

Dates and versions

tel-03873000 , version 1 (28-11-2022)

Licence

Attribution - CC BY 4.0

Identifiers

  • HAL Id : tel-03873000 , version 1

Cite

Karën Fort. Myriadisation et éthique pour le traitement automatique des langues. Traitement du texte et du document. ED n°77 : Informatique - Automatique - Électronique - Électrotechnique - Mathématiques de Lorraine (IAEM-Lorraine), 2022. ⟨tel-03873000⟩
0 View
0 Download

Share

Gmail Facebook Twitter LinkedIn More