L'échantillonnage aléatoire simple est un échantillon d'individus existant dans une population; les individus sont choisis au hasard parmi la population et placés dans un échantillon. Cette méthode de sélection aléatoire des individus vise à sélectionner une taille d'échantillon qui est une représentation non biaisée de la population. Cependant, ce n'est pas avantageux lorsque les échantillons de la population varient considérablement.
L'échantillonnage aléatoire stratifié est une meilleure méthode lorsqu'il existe différents sous-groupes dans la population. L'échantillonnage aléatoire stratifié divise une population en sous-groupes ou en strates, et des échantillons aléatoires sont prélevés, proportionnellement à la population, pour chacune des strates créées. Les membres de chacune des strates formées ont des attributs et des caractéristiques similaires. Cette méthode d'échantillonnage est largement utilisée et très utile lorsque la population cible est hétérogène. Un échantillon aléatoire simple devrait être prélevé dans chaque strate. L'échantillonnage aléatoire stratifié peut être utilisé, par exemple, pour échantillonner les moyennes pondérées cumulatives des élèves dans l'ensemble du pays, les personnes qui passent des heures supplémentaires au travail et l'espérance de vie dans le monde entier.
Par exemple, supposons qu'une équipe de recherche veuille déterminer la moyenne pondérée cumulative (GPA) d'étudiants à travers les États-Unis. L'équipe de recherche a de la difficulté à recueillir des données auprès de l'ensemble des 21 millions d'étudiants; il décide de prélever un échantillon aléatoire de la population en utilisant 4 000 étudiants.Supposons maintenant que l'équipe examine les différents attributs des participants à l'échantillon et se demande s'il existe des différences entre les GPA et les majors des étudiants. Supposons qu'elle trouve que 560 étudiants sont des majors anglais, 1135 sont des majors scientifiques, 800 sont des majors en informatique, 1090 sont des majors d'ingénierie, et 415 sont des majors de mathématiques. L'équipe veut utiliser un échantillon aléatoire stratifié proportionnel où la strate de l'échantillon est proportionnelle à l'échantillon aléatoire de la population.
L'équipe doit ensuite confirmer que la strate de la population est proportionnelle à la strate de l'échantillon; Cependant, ils trouvent que les proportions ne sont pas égales. L'équipe doit ensuite rééchantillonner 4 000 étudiants de la population et sélectionner au hasard 480 étudiants en anglais, 1120 en sciences, 960 en informatique, 840 ingénieurs et 600 étudiants en mathématiques. Avec ceux-ci, il a un échantillon aléatoire stratifié proportionné des étudiants, qui fournit une meilleure représentation des majors des collèges des étudiants dans le U.S. Les chercheurs peuvent ensuite mettre en évidence une strate spécifique, observer les différentes études des étudiants américains et observer les différentes moyennes cumulatives.
Lire plus loin comment différencier un échantillon simple d'un échantillon stratifié - Quelle est la différence entre un échantillon aléatoire simple et un échantillon aléatoire stratifié?
Quels sont les avantages et les inconvénients de l'échantillonnage aléatoire stratifié?
L'un des avantages de l'échantillonnage aléatoire stratifié consiste à minimiser le biais de sélection de l'échantillon et son inconvénient est qu'il est inutilisable lorsque les chercheurs ne peuvent catégoriser en toute confiance chaque membre de la population en sous-groupe.
Comment puis-je utiliser l'échantillonnage systématique avec échantillonnage stratifié?
Apprend comment la technique d'échantillonnage systématique peut être utilisée avec la méthode d'échantillonnage stratifié et quand les deux méthodes ne doivent pas être combinées.
Quand est-il préférable d'utiliser un échantillonnage aléatoire systématique plutôt qu'un échantillonnage aléatoire simple?
Apprend que l'échantillonnage systématique est préférable à l'échantillonnage aléatoire simple, par exemple en l'absence de profils de données et lorsque le risque de manipulation des données est faible.