Wikipédia devient-elle une source académique respectable?

mercredi, 3 septembre 2008

Lisa Spiro, directrice du Digital Media Center à la Rice University’s Fondren Library, est la rédactrice d’un blog nommé Digital Scholarship in the Humanities.

Elle y rédige des billets tournant autour de la méthodologie de la recherche scientifique. Dernièrement, elle pose une question assez osée et tente d’y apporter une réponse.

La question est simple : « Wikipédia devient-elle une source académique respectable? »

Pour répondre à cette question elle a recherché les bases de données scientifiques Project Muse et JSTOR. A partir du nombre de publications citant Wikipédia, de leur année de parution, et de la manière dont Wikipédia est citée, elle explique l’évolution qu’a suivi Wikipédia au sein des parutions scientifiques.

Je vous invite bien sûr à lire son billet en entier pour bien comprendre sa démarche, mais c’est sa conclusion qui est la plus intéressante:

OK, maybe Wikipedia can be a legitimate
source for student research papers–and furnish a way to teach research
skills.  But should it be cited in scholarly publications?  In “A Note
on Wikipedia as a Scholarly Source of Record,” part of the preface to Mechanisms,
Matt Kirschenbaum offers a compelling explanation of why he cited
Wikipedia, particularly when discussing technical documentation:

Information
technology is among the most reliable content domains on Wikipedia,
given the high interest of such topics Wikipedia’s readership and the
consequent scrutiny they tend to attract.   Moreover, the ability to
examine page histories on Wikipedia allows a user to recover the
editorial record of a particular entry… Attention to these editorial
histories can help users exercise sound judgment as to whether or not
the information before them at any given moment is controversial, and I
have availed myself of that functionality when deciding whether or not
to rely on Wikipedia.(Kirschenbaum xvii)

With Wikipedia, as with other sources, scholars should use critical
judgment in analyzing its reliability and appropriateness for
citation.  If scholars carefully evaluate a Wikipedia article’s
accuracy, I don’t think there should be any shame in citing it.

Je suis désolé je ne vais pas tout traduire, mais l’idée est qu’avec Wikipédia, comme avec toutes les autres sources, les chercheurs doivent utiliser leur sens critique en analysant la fiabilité et la pertinence de faire une citation.

Rien de nouveau au soleil, c’est ce que disent les Wikipédiens depuis des années. Ce qui est plus intéressant c’est que l’auteur de ces propos soit lui-même un chercheur qui, autant que je sache, n’est pas rédacteur sur Wikipédia.

Je vais terminer en citant une dernière fois le billet de Lisa Spiro:

However, you can begin to see academic norms shifting as more scholars
find useful information in Wikipedia and begin to cite it.  As
Christine Borgman notes, “Scholarly documents achieve trustworthiness
through a social process to assure readers that the document satisfies
the quality norms of the field
” (Borgman 84)

Je vous invite, amis anglophones, à lire ce billet en entier pour vous faire une meilleure idée de ce qu’elle dit. Il n’y a rien de bien novateur, mais c’est tellement rafraichissant de le voir écrit par une personne extérieure à la sphère Wikimedia.

Publicités

Le vandalisme : des études sérieuses plutôt que du pifomètre !

dimanche, 6 juillet 2008

Le vandalisme sur Wikipédia est un grand fantasme, soit que certains (généralement des wikipédiens) le déclarent quasi sans effet, soit que des critiques (souvent ayant à peine pris le temps de vérifier) affirment qu’il est ingérable. Le vandalisme, et plus généralement ce que j’appelerais les « modifications non souhaitées », est à chaque fois au coeur des discussions sur la qualité des articles de Wikipédia.

Malheureusement, quand le grand public est informé de la qualité de Wikipédia, les médias s’appuient trop souvent sur des « études » dont la qualité laisse pour le moins à désirer. Cela va de médiocre, par exemple l’étude des étudiants de Pierre Assouline, essentiellement effectuée au pifomètre et à charge, à carrément risible, par exemple quand Paris Match demande à Didier Decoin (membre éminent de l’académie Goncourt) de juger en 1 minute de la qualité de l’article sur… les sous-marins nucléaires lanceurs d’engins (cf. le numéro du 19 juin 2008).

C’est d’autant plus dommage qu’il existe des études rigoureuses, menées par des scientifiques, sur la base d’études statistiques. Bref, qui essayent d’être plus objectif que le doigt mouillé, mais qui ont l’horrible particularité de parler en chiffres, et non en exemples. Des trucs sérieux, quoi. Pouah, comme dirait Alithia.

Entre ces deux extrêmes, plusieurs études généralistes (citons celle de Nature, la plus connue, pour faire court) semblent démontrer que la qualité de certains articles de Wikipédia peut être équivalente à celle des encyclopédies classiques. Il est donc possible d’atteindre des entrées encyclopédiques de qualité en utilisant le processus de création de contenu de Wikipédia.

Je parlerais par la suite de modifications non souhaitées, définies comme des éditions violant une ou plusieurs règles éditoriales, délibérément (ce qui est qualifié alors de vandalisme) ou non.

Dans l’excellente étude de Priedhorsky et de ses collègues (de l’université du Minnesota), dont je vais ici extraire quelques informations, les dommages entraînés peuvent être classés en 6 catégories : désinformation, suppression massive, suppression partielle, contenu offensant, spam ou non-sens. Cet ensemble de dommages reste présent quel que soit l’état des articles.

Environ 5% des modifications de la Wikipédia anglophone peuvent être considérées comme du vandalisme, sur une durée d’environ 4 ans, cela représente plus de 2 millions de modifications problématiques sur environ 57 millions de modifications acceptables. La version francophone, quant à elle, dispose à l’heure actuelle d’environ 613 000 articles, avec une moyenne de 30 modifications par article (statistiques Wikimedia Foundation, janvier 2008). Étant donné que plus de 717 000 modifications y sont effectuées par mois, on peut extrapoler le nombre de vandalismes à détecter à environ 36 000 par mois, soit plus d’un millier par jour.

Bien que, sur la Wikipédia anglophone, 42% des dommages soient réparés avant même d’être vus, que quasiment tous sont supprimés après 15 révisions et que la probabilité de lire un article endommagé soit de 0.0037, ces chercheurs ont pu constater que seuls 60% des vandalismes sont détectés facilement par des humains et que 11% persistent après avoir été vus 100 fois.

Prenez le temps de méditer ces chiffres, qui ont le mérite d’être tout à fait pertinents vis à vis de l’utilisation de wikipédia. Wikipédia, c’est énorme, ÉNORME : des millions d’articles, c’est un Web dans le Web. Il y existe des articles qui ne sont pratiquement jamais consultés, alors que d’autres le sont énormément {{référence nécessaire}}. Partant, des statistiques globales seraient peu pertinentes, puisqu’elle mettraient dans le même panier des choses qui n’ont rien à voir. L’étude de Priedhorsky a donc l’intelligence de raisonner en terme de visites.

Le résultat est intéressant : vous avez environ quatre chances sur mille de lire un vandalisme, que vous reconnaîtrez aisément dans 60% des cas. En arrondissant largement pour fixer les idées, vous avez environ 2 chances sur 1000 de lire un vandalisme sans vous en rendre compte.

Je ne doute pas que les défenseurs de Wikipédia y verront l’éclatante démonstration de la validité du modèle de rédaction du projet, alors que ses détracteurs seront convaincus que cette proportion est intolérable. La vérité renforce souvent les deux parties dans leurs idées. Ou pas. Et inversement.

J’aimerais avoir des statistiques similaires sur d’autres médias, ça serait intéressant.

Les bonnes références :


Où trouver des données ?

vendredi, 4 juillet 2008

Dans un article de son blog, Bret Taylor explique que : « nous avons besoin d’une Wikipédia pour les données ». Article intéressant, qui tente de montrer l’intérêt qu’aurait tout le monde à avoir des données « ouvertes ». On part ici du postulat qu’il n’y a plus à démontrer l’intérêt que nous avons à avoir une connaissance synthétique ouverte, avec Wikipédia.

Sarah Perez en profite pour faire un petit tour d’horizon des différents sites mettant à disposition des données, dans un article intitulé : « où trouver des données ouvertes sur le web ? ».

Voici un petit tour dans le monde merveilleux des bases de données ouvertes utilisables pour écrire des articles encyclopédiques…

CKAN (Comprehensive Knowledge Archive Network)

Le CKAN (qu’on pourrait traduire par « réseau global d’archivage de connaissance », en étant audacieux) recense un peu tout ce qui est archivable : des pièces de Shakespeare, une base de donnée sur la densité de population mondiale, 30 ans de brevets américains, etc.

Infochimps.org

Un almanach géant, qui tente de relier des dépots de données brutes. Il reprend ainsi les infoboxes de Wikipédia, 50 ans de données météo, heures par heures, les résultats de recensement aux USA, une série de mots-croisées…

OpenStreetMap

Une carte du monde où toutes les données sont libres d’être modifiées, précisées, distribuées (sous licence « Creative Commons, attribution, partage à l’identique »). Une sorte de wiki uniquement centré sur des données purement géographiques.

MusicBrainz

Une base de méta-données autour de la musique (noms de groupes, titres de chansons, etc.). La base est notamment utilisable et alimentable via des plugins pour des logiciels de lecture de musiques. Les données sont diffusées en domaine public ou sous la licence « Creative Commons, attribution, non-commercial ».

DBpedia

Une base de donnée structurée extraite de Wikipédia. Attention, utiliser Wikipédia pour écrire des articles dans Wikipédia peut être récursivement problématique.

Freebase

Une base de données libres (CC-BY, principalement, mais aussi GFDL), avec une assez grande communauté, qui récolte ses informations sur d’autres sites et les structures. Plutôt bien fait de l’avis des internautes.

Numbrary

Une base de données pour tout ce qui est valeurs quantitatives.

UN Data

Un site présentant les bases de données issues de la division statistiques et du département des affaires économiques et sociales des nations unies. Des chiffres sur la population, l’industrie, l’énergie, le commerce, etc.

Swivel

Une site qui présente des synthèses autour de différents jeux de données, des graphiques exploitables et des croisements intéresantes.

Data 360

Un site similaire.

Linking open data

Le meilleur pour la fin, un site qui cherche à relier tout ce qui se fait de sources ouvertes (et libres) sur le web, avec une utilisation massive de RDF. Du grand art.


La forme et le contenu

jeudi, 12 juillet 2007

Une étudiante en journalisme et néanmoins amie, revenant d’Amérique du Sud, m’expliquait comment des nouvelles locales de pays éloignés se retrouvent parfois dans nos journaux.

Supposons qu’un événement de nature à attirer l’attention survient dans un village au fin fond du Vénézuéla (une femme accouche d’octuplés, ou quelqu’histoire saugrenue du genre) ; un canard local écrit un papier sur le sujet ; un journaliste d’un journal national lit ce canard, repère la nouvelle et la reprend ; le bureau local d’une agence de presse repère la nouvelle dans le journal national, la résume, et pond une dépêche, qui est mise à la disposition des journaux du monde entier ; un journal en mal de petite nouvelle saugrenue repère la dépèche, l’achète, et soit la publie telle quelle, soit assigne un pigiste pour monter la mayonnaise. Voilà les octuplés vénézuéliens publiés à 6 000 kilomètres de chez eux.

Il ne vous aura pas échappé que si la nouvelle a passé par de nombreuses mains, la mère de famille, elle, n’a vu en tout et pour tout que le journaliste du canard local. Si la nouvelle est d’importance, il est possible que l’agence de presse envoie quelqu’un vérifier l’information sur place, mais dans la plupart des cas, l’information est l’équivalent écrit du téléphone arabe.

Une rédaction de journal emploie un nombre limité de personnes, qui doivent pondre une quantité importante de texte à intervalle régulier. Dans les conditions dans lesquelles les pigistes travaillent, on ne peut pas leur reprocher de faire de la paraphrase. C’est humain.

Toutefois, en temps que lecteur, il est intéressant de garder à l’esprit que peu des nouvelles sont de première main. Le journaliste d’investigation qui va sur le terrain, calepin en main jour et nuit, contacte les gens, et confronte les témoignages, c’est l’exception (qui a dit « du cinéma » ?). La plupart des journalistes vont :

  1. au plus facile : ils reprennent les déclarations des agences de presse, ou les dossiers de presse (c’est tout bénéfice pour tout le monde : cher journaliste, pourquoi te casser le coccyx à enquêter alors que je te donne un joli dossier prêt à copier-coller, qui ne te demande pas de travail et qui dit ce que je veux ?)
  2. au plus sûr : est-ce que j’ai vraiment envie de publier une étude saignante sur un groupe industriel qui vend des armes, a des pratiques pas nettes, etc., quand mon journal est financé par ce groupe ? (« Oui !», se dit-on quand sa fiche de paye ne dépend pas de ça…)
  3. au plus vendeur : selon l’opinion et la mode, on publie de préférence ce que le public a envie d’entendre, car c’est ce qu’il a envie d’acheter. Si la coquille est creuse, aucune importance, le journal est acheté, les publicités écoulées, l’argent rentre.

Tout ça aussi c’est humain, mais ça a l’inconvénient de déboucher sur le paysage de la presse états-unienne avant l’invasion de l’Irak en 2003 : par paresse (p. ex. les communiqués étaient fournis par l’entourage de Bush), par facilité (p. ex. Murdoch, le patron de nombreux médias, était très partisan de l’agression contre l’Irak) et par effet de mode, elle s’est mise à relayer des informations sans rapport avec la réalité avec un ensemble digne des médias d’une dictature. Les USA ne sont pas (et n’ont jamais été) une dictature, et c’est d’autant plus inquiétant d’en arriver là.
Autre exemple (moins tragique) : en mars 2007, Reuters publie (ici) une histoire fausse selon laquelle Wikipédia se préparerait à lancer un moteur de recherche. Cette « nouvelle » est reprise dans la presse depuis, et malgré les rectificatifs de wikipédiens bien informés, l’erreur non seulement n’est pas corrigée, mais continue de se propager.

Les Wikipédiens font exactement la même chose que ces journalistes : lire des sources, les mettre en rapport, les synthétiser, mettre en forme le résultat. Mais ils ne sont pas tenus à un rythme d’enfer dont dépend leur salaire, et peuvent donc prendre le temps de confronter les sources. Wikipédia ne fera jamais de concurrence à Charles Enderlin : jamais nous n’aurions accès aux gens qu’il fréquente, sa connaissance du terrain, son intelligence des enjeux et des mentalités, etc. ; mais si c’est pour faire du Libé ou du Le Point de base, on trouve sans problème des amateurs capables de faire aussi bien.

De façon assez similaire, on peut se demander s’il n’y a pas du pigiste surmené dans certains « intellectuels » médiatiques qui tirent à boulets rouges sur Wikipédia. Avant leur répugnance pour les encyclopédies libres en ligne, ces gens ont des points communs :

  • ils ont des avis sur des sujets pointus et multiples qui ne peuvent humainement pas tous être leur domaine d’expertise (il arrive que ces avis soient très tranchés et naïfs)
  • ils monopolisent le temps de parole (alors qu’il y a peut-être de vrais experts qui auraient des choses pertinentes à dire)
  • ils se donnent un genre par des cuistreries (par exemple en faisait des jeux de mots en grec ancien sans nécessité)
  • leur propos oscille entre trivialités et inexactitudes, l’effort étant mis non sur le fond, mais sur le style (voir point précédent).

Ce sont des gens qui semblent avoir retenu de leurs études des techniques rhétoriques, mais perdu de vue que les arguments sont censés avoir un rapport avec la réalité en premier lieu (on devrait peut-être renforcer les matières fondées sur la réalité comme la chimie et la physique…)

En dernière analyse, les pires travers de Wikipédia sont souvent liés à des contributeurs qui veulent défendre des opinions et faire des phrases par imitation de ce qu’ils lisent dans la presse (Par exemple le bon style pour un article de musique n’est pas imité d’un magazine branché). Et a contrario, l’une des grande réussites de Wikipédia est sans aucun doute, par-delà les articles en eux-mêmes, d’avoir sensibilisé une importante population à une écriture saine : le propos est sourcé, vérifié, le cas échéant corrigé, et sa force n’est pas dans les effets de style, mais dans le contenu.


Wikipedia on Buzz

jeudi, 26 avril 2007

Aujourd’hui, 01net a fait paraître un excellent article sur le projet « Wikipedia on DVD ».

À cette occasion, regardons un peu le buzz produit :

Bref, le web prend la juste mesure de l’intérêt de ce génial projet… espérons que les médias grand public en ferons autant.


Vous voulez qu’on vous fasse un dessin ?

lundi, 16 avril 2007

L’un des défauts de Wikipédia, par comparaison à une encyclopédie classique (ou, pour les sujets d’actualité, à une agence de presse), c’est les images. Il est difficile d’obtenir des images de bonne qualité pour illustrer les articles. Comme il est gratifiant de réussir des images de bonne qualité, quelques wikimédiens écument les musées, appareils semi-professionnels au poing, pour mieux en faire connaître les trésors.

Par cette méthode, il est difficile d’obtenir de bons clichés. Un bon photographe (doté d’un bon matériel) peut réussir des photos passables, mais sans contrôle de la lumière et sans trépied, il est illusoire d’espérer obtenir une photographie digne d’être une référence pour un sujet donné. C’est pourquoi j’avais depuis un certain temps l’idée de passer à la vitesse supérieure en obtenant des autorisations et des conditions de prise de vue professionnelles. L’un des grands musées nationaux français détaille les modalités sur son site Internet (assurances, tarifs, etc.)

Contact pris, la demande est rejetée : ce grand musée national ne veut pas que les photographies prises dans son enceinte soient mises sous licence libre. Une dame fort aimable m’explique que le service de presse de ce musée fournit des clichés de qualité, contre rétribution, pour diverses publications, et qu’il n’est pas question qu’ils se fassent concurrence à eux-mêmes en nous ouvrant leurs portes. Courtois regrets de part et d’autre, car le musée nous aurait volontiers fourni ses clichés, même gratuitement ; mais pas « pour n’importe quoi. »

Quelques jours plus tard, expédition photographique habituelle dans un autre musée : j’achète mon billet et en profite pour demander au préposé s’il est permis de photographier. Réponse affirmative, je commence à prendre des clichés des objets du musée. Au beau milieu de la visite, une autre employée du musée avise mon appareil et me dit que mes photos doivent être « à titre privé. » Je poursuis ma visite et mes photos, mais je n’ai plus trop le cœur à les rattraper. Je ne publierai pas ces clichés.

Le point commun de ces deux expériences, c’est que les musées, d’une certaine façon, tombent les masques. L’interdiction des trépieds et des flashs répond à des nécessités de préserver les œuvres et de permettre la visite à tous. Mais dans ces deux derniers cas, il s’agissait pour les musées de restreindre la liberté d’usagers, au nom d’ambitions pécuniaires. Dans les deux cas, il s’agissait de musées nationaux, dont le financement est assuré par l’État. En Angleterre, le British Museum est gratuit : les collections appartiennent à la Nation, et l’entrée est gratuite pour tous (« Governed by a body of Trustees responsible to Parliament, its collections belonged to the nation, and admission was free and open to all. Entry was directed to be given to ‘all studious and curious Persons‘ », http://www.thebritishmuseum.ac.uk/visit/history.html). Ici, les musées sont financés avec les impôts des citoyens, mais ils leur demandent une contribution à l’entrée, et restreignent encore la liberté des usagers dans l’espoir de gratter quelques sous avec les produits dérivés. On pourrait penser que soit ces pauvres gens en sont réduits à compter les bouts de chandelle pour survivre, soit (avec tout le respect dû à des serviteurs de l’État) que nous sommes en face des eunuques du sérail qui croient posséder ce qu’ils ne font que garder pour d’autres.

C’est en fait un peu plus subtile : ces réactions aberrantes sont dues à un aspect de mentalité de la société française. Il y a exactement le même problème avec les candidats aux élections présidentielles en cours : sur les douze candidats, un seul a fourni une image sous licence libre ; neuf sont illustrés sur Wikipédia par des photos prises par des amateurs ; et deux ont, en désespoir de cause, été illustrés par des dessins à l’encre. Sans épiloguer sur la considération qu’aurait tel ou tel candidat pour les « nouveaux médias citoyens », on peut constater une tendance forte à se tirer une balle dans le pied : tous ces candidats pourraient à bon compte voir publier les photos de leur choix dans un média de forte audience. En faisant la sourde oreille, ils s’exposent à des illustrations moins que flatteuses.

Aux États-Unis, le contrôle de l’État par les citoyens impose que tous les documents créés par des employés du gouvernement pendant leur service sont automatiquement dans le Domaine Public. C’est peut-être un hasard dû à des différences de conception de la société qui remontent aux Père Fondateurs, mais les USA ont une nette avance sur la France dans ce domaine.

En France, des journalistes se lamentent de l’émergence des « médias citoyens », les musées nous regardent avec défiance et les politiciens nous ignorent. La peur de ce qu’on ne connaît pas non seulement fait perdre des occasions de symbioses constructives, mais dessert parfois de façon très immédiate. Pendant que les mentalités tardent à évoluer, des
wikimédiens bénévoles payent des billets de musées et y prennent des photos pour vous.


Wikimédia en chiffres

jeudi, 12 avril 2007

Wikipédia c’est surtout du texte, beaucoup de texte. Il est souvent rappelé que Wikipédia contient plus de six millions d’articles dans toutes les langues, dont plus de 450 000 articles en français. Mais au delà de ces chiffres qui n’ont en fait que peu de valeur, voici quelques chiffres qui présentent un peu mieux les spécificités des projets Wikimédia et du travail considérable que les bénévoles font chaque jour.

  • L’encyclopédie Wikipédia existe en 186 versions linguistiques différentes (plus ou moins développées).
  • 300 serveurs localisés dans trois endroits dans le monde (le parc principal est aux États-Unis, il y en a un autre aux Pays-Bas et le dernier est en Corée du Sud).
  • Moins de dix employés à travers le monde.
  • Les recettes de Wikimedia Foundation ont été multiplié par 4,73 entre l’année fiscale 2003/2004 et 2004/2005, par 3,97 entre l’année fiscale 2004/2005 et 2005/2006 et entre 3 et 4 entre l’année fiscale 2005/2006 et le budget prévisionnel de 2006/2007.
  • L’audience de Wikipédia en France en janvier 2007 est évaluée à environ 8 millions de visiteurs uniques. Sur un an, cela donne une progression de 161% (source : Médiamétrie).
  • Étant donné le nombre de visites chaque mois, vous vous doutez bien que les emails affluent. L’équipe de bénévoles qui s’occupe de trier et répondre aux mails peut répondre dans une vingtaine de langues et en tout plusieurs centaines de mails doivent être traitées chaque jour.

Et bien sûr tous ces chiffres seront démodés dans six mois.