Les pièges des DzԲé des médias sociaux
Or, de plus en plus, des lacunes sont démontrées dans bon nombre de ces études, d’où la nécessité, pour les chercheurs, d’éviter les pièges redoutables de l’utilisation de vastes corpus de DzԲé issues des médias sociaux, selon des informaticiens de l’Université91, à Montréal, et de l’UniversitéCarnegieMellon, à Pittsburgh.
Ces résultats erronés peuvent avoir de lourdes conséquences. En effet, chaque année, des milliers d’articles de recherche reposent maintenant sur les DzԲé issues des médias sociaux. «Bon nombre de ces articles sont utilisés par le public, l’industrie et le gouvernement pour motiver et justifier des décisions et des investissements », affirme DerekRuths, professeur adjoint à l’École d’informatique de l’Université91.
Dans un article publié dans le numéro du 28novembre2014 de la revue scientifique Science, DerekRuths et JürgenPfeffer, de l’Institut de recherche logicielle de l’Université Carnegie Mellon, font ressortir plusieurs problèmes associés à l’utilisation de DzԲé issues des médias sociaux– et proposent des stratégies permettant de les surmonter. Ils mentionnent notamment les problèmes suivants:
- les diverses plateformes de médias sociaux attirent différents types d’utilisateurs. Pinterest, par exemple, intéresse surtout les femmes de 25 à 34ans, mais les chercheurs corrigent rarement l’image biaisée que ces échantillons peuvent donner;
- les sources de DzԲé accessibles publiquement reflètent rarement l’ensemble des DzԲé des médias sociaux, et les chercheurs ignorent généralement quand et comment les médias sociaux filtrent leurs flux de DzԲé;
- la conception des plateformes de médias sociaux peut dicter la façon dont les utilisateurs se comportent et, par conséquent, le type de comportements qu’il est possible de mesurer. Ainsi, sur Facebook, l’absence d’un bouton «je n’aime pas» rend plus difficile la détection de réactions négatives au contenu que la présence d’un bouton «j’aime» témoignant de réactions positives;
- un grand nombre de polluposteurs («spammers») et de bots, qui se font passer pour des utilisateurs normaux sur les médias sociaux, sont intégrés par erreur à de nombreuses mesures et prédictions du comportement humain;
- les chercheurs font souvent état de leurs résultats pour des groupes d’utilisateurs, de sujets et d’événements faciles à classifier, donnant ainsi l’illusion que les nouvelles méthodes sont plus exactes qu’elles ne le sont en réalité. Ainsi, les efforts visant à déterminer l’orientation politique d’utilisateurs de Twitter ne sont exacts qu’ 65% dans le cas des utilisateurs types, et ce, même si certaines études (basées sur des utilisateurs politiquement actifs) ont fait état d’une exactitude de 90%.
Selon DerekRuths et JürgenPfeffer, des solutions bien connues à bon nombre de ces problèmes ont déjà été trouvées par des disciplines telles que l’épidémiologie, la statistique et l’apprentissage machine. «Ces problèmes ont ceci en commun que les chercheurs doivent savoir exactement ce qu’ils analysent réellement lorsqu’ils travaillent à l’aide de DzԲé issues des médias sociaux», affirme DerekRuths.
Les spécialistes des sciences sociales ont déjà affiné leurs normes et leurs techniques afin de relever ce type de défi avec succès. «La célèbre manchette de 1948 “Dewey défait Truman” vient du fait que les sondages téléphoniques avaient sous-échantillonné les partisans de Truman dans la population générale», explique le professeurRuths. «Or, plutôt que de discréditer de façon permanente le recours aux sondages, cette erreur monumentale a mené aux méthodes de sondage plus évoluées et plus exactes, ainsi qu’aux normes plus strictes que nous connaissons aujourd’hui. Nous en sommes maintenant à un tournant technologique semblable. En nous attaquant à ces problèmes, nous pourrons mesurer pleinement les avantages que comporte la recherche fondée sur les DzԲé issues des médias sociaux.»
--------------
Social Media for Large Studies of Behavior, DerekRuths et JürgenPfeffer, Science, 28novembre2014.