Le vandalisme : des études sérieuses plutôt que du pifomètre !

dimanche, 6 juillet 2008

Le vandalisme sur Wikipédia est un grand fantasme, soit que certains (généralement des wikipédiens) le déclarent quasi sans effet, soit que des critiques (souvent ayant à peine pris le temps de vérifier) affirment qu’il est ingérable. Le vandalisme, et plus généralement ce que j’appelerais les « modifications non souhaitées », est à chaque fois au coeur des discussions sur la qualité des articles de Wikipédia.

Malheureusement, quand le grand public est informé de la qualité de Wikipédia, les médias s’appuient trop souvent sur des « études » dont la qualité laisse pour le moins à désirer. Cela va de médiocre, par exemple l’étude des étudiants de Pierre Assouline, essentiellement effectuée au pifomètre et à charge, à carrément risible, par exemple quand Paris Match demande à Didier Decoin (membre éminent de l’académie Goncourt) de juger en 1 minute de la qualité de l’article sur… les sous-marins nucléaires lanceurs d’engins (cf. le numéro du 19 juin 2008).

C’est d’autant plus dommage qu’il existe des études rigoureuses, menées par des scientifiques, sur la base d’études statistiques. Bref, qui essayent d’être plus objectif que le doigt mouillé, mais qui ont l’horrible particularité de parler en chiffres, et non en exemples. Des trucs sérieux, quoi. Pouah, comme dirait Alithia.

Entre ces deux extrêmes, plusieurs études généralistes (citons celle de Nature, la plus connue, pour faire court) semblent démontrer que la qualité de certains articles de Wikipédia peut être équivalente à celle des encyclopédies classiques. Il est donc possible d’atteindre des entrées encyclopédiques de qualité en utilisant le processus de création de contenu de Wikipédia.

Je parlerais par la suite de modifications non souhaitées, définies comme des éditions violant une ou plusieurs règles éditoriales, délibérément (ce qui est qualifié alors de vandalisme) ou non.

Dans l’excellente étude de Priedhorsky et de ses collègues (de l’université du Minnesota), dont je vais ici extraire quelques informations, les dommages entraînés peuvent être classés en 6 catégories : désinformation, suppression massive, suppression partielle, contenu offensant, spam ou non-sens. Cet ensemble de dommages reste présent quel que soit l’état des articles.

Environ 5% des modifications de la Wikipédia anglophone peuvent être considérées comme du vandalisme, sur une durée d’environ 4 ans, cela représente plus de 2 millions de modifications problématiques sur environ 57 millions de modifications acceptables. La version francophone, quant à elle, dispose à l’heure actuelle d’environ 613 000 articles, avec une moyenne de 30 modifications par article (statistiques Wikimedia Foundation, janvier 2008). Étant donné que plus de 717 000 modifications y sont effectuées par mois, on peut extrapoler le nombre de vandalismes à détecter à environ 36 000 par mois, soit plus d’un millier par jour.

Bien que, sur la Wikipédia anglophone, 42% des dommages soient réparés avant même d’être vus, que quasiment tous sont supprimés après 15 révisions et que la probabilité de lire un article endommagé soit de 0.0037, ces chercheurs ont pu constater que seuls 60% des vandalismes sont détectés facilement par des humains et que 11% persistent après avoir été vus 100 fois.

Prenez le temps de méditer ces chiffres, qui ont le mérite d’être tout à fait pertinents vis à vis de l’utilisation de wikipédia. Wikipédia, c’est énorme, ÉNORME : des millions d’articles, c’est un Web dans le Web. Il y existe des articles qui ne sont pratiquement jamais consultés, alors que d’autres le sont énormément {{référence nécessaire}}. Partant, des statistiques globales seraient peu pertinentes, puisqu’elle mettraient dans le même panier des choses qui n’ont rien à voir. L’étude de Priedhorsky a donc l’intelligence de raisonner en terme de visites.

Le résultat est intéressant : vous avez environ quatre chances sur mille de lire un vandalisme, que vous reconnaîtrez aisément dans 60% des cas. En arrondissant largement pour fixer les idées, vous avez environ 2 chances sur 1000 de lire un vandalisme sans vous en rendre compte.

Je ne doute pas que les défenseurs de Wikipédia y verront l’éclatante démonstration de la validité du modèle de rédaction du projet, alors que ses détracteurs seront convaincus que cette proportion est intolérable. La vérité renforce souvent les deux parties dans leurs idées. Ou pas. Et inversement.

J’aimerais avoir des statistiques similaires sur d’autres médias, ça serait intéressant.

Les bonnes références :

Publicités