Contenu archivé

L'information qui porte la mention « archivée » est fournie à des fins de référence, de recherche ou de tenue de documents. Elle n'est pas assujettie aux normes Web du gouvernement du Canada et elle n'a pas été modifiée ou mise à jour depuis son archivage. Pour obtenir cette information dans un autre format, contactez-nous.

Chapitre 4 – Traitement des données

Le Centre des opérations des données

Le Centre des opérations des données de Statistique Canada (COD) était le point central de réception et d'enregistrement des questionnaires électroniques et version imprimée. Les questionnaires électroniques ont été transmis directement aux serveurs du COD alors que les questionnaires version imprimée ont été numérisés au moyen de l'imagerie. Une fois la qualité de l'image confirmée, les données ont été saisies grâce aux méthodes de reconnaissance optique des marques (ROM) et de reconnaissance intelligente des caractères (RIC). Si la qualité de l'image n'était pas suffisante, les données étaient saisies de façon manuelle par un opérateur.

Le codage, étape subséquente du traitement des données, a également eu lieu au Centre des opérations des données. Ainsi, toutes les réponses écrites en toutes lettres ont été soumises à un système de codage automatisé qui associait à chacune des réponses un code numérique, au moyen de fichiers de référence, d'ensembles de codes et de classifications types de Statistique Canada. Lorsque le système ne pouvait assigner un code de façon automatisé pour une réponse donnée, celle-ci était codée de façon manuelle par un opérateur. Le codage a été appliqué aux variables suivantes : lien avec la Personne 1, lieu de naissance, citoyenneté, langues non officielles, langue parlée à la maison, langue maternelle, origine ethnique, groupe de population, bande indienne/Première Nation, lieu de résidence 1 an auparavant, lieu de résidence 5 ans auparavant, lieu de naissance des parents, principal domaine d'études, lieu des études, langue de travail, industrie, profession et lieu de travail.

Contrôle des données et imputation de la non-réponse

Une fois la saisie, le contrôle initial et les opérations de codage terminés, les données ont été traitées jusqu'à l'étape du contrôle final et de l'imputation. Le contrôle final détecte les réponses invalides et les incohérences. Ce contrôle est basé sur des règles déterminées par les analystes des domaines spécialisés de Statistique Canada. Les questions non répondues sont également identifiées. L'imputation remplace ces éléments manquants, invalides ou non cohérents par des valeurs plausibles. Lorsqu'elle est effectuée judicieusement, l'imputation peut améliorer la qualité des données en remplaçant les non-réponses par des réponses plausibles et similaires à celles que l'on aurait obtenues si les répondants avaient répondu à ces questions. Elle offre également l'avantage de produire un ensemble complet de données.

L'imputation de l'ENM a été réalisée selon la méthode du plus proche voisin. Cette méthode est très répandue pour le traitement des non-réponses. Elle vise à remplacer l'information manquante, invalide ou incohérente relativement à un répondant par les valeurs fournies par un autre répondant qui lui est « similaire ». Les règles d'identification du répondant le plus similaire au non-répondant peuvent varier en fonction des variables à imputer. Les méthodes d'imputation des données par donneur ont des propriétés intéressantes et, de façon générale, ne nuisent pas à la distribution des données, comme le font de nombreuses autres techniques d'imputation. Après avoir procédé à l'imputation par la méthode du plus proche voisin, on s'assure de la cohérence des données.

Pondération

Les réponses finales sont pondérées afin que les données tirées de l'échantillon permettent de représenter la population canadienne cible de l'ENM. La pondération est le processus regroupant le calcul des poids de sondage, l'ajustement des poids pour corriger la non-réponse totale à l'enquête et le calage des poids à des totaux du recensement.

En premier lieu, un poids de sondage initial d'environ 3 est attribué à chaque ménage échantillonné. Le poids initial de 3 est l'inverse de la probabilité de sélection dans l'échantillon de l'ENM. Comme décrit à la section 3.2, environ 3 ménages sur 10 ont été sélectionnés dans l'échantillon d'où un poids initial d'un peu plus de 3 (10/3). Ensuite, les poids de sondage sont ajustés pour tenir compte de la sélection du sous-échantillon. Comme décrit à la section 3.4, ce dernier a été tiré parmi les ménages qui n'avaient pas répondu à l'ENM à la mi-juillet 2011. Il faut noter qu'à la fin de ces deux étapes de pondération, certains ménages ont un poids unitaire, car dans certaines régions tous les ménages sont choisis dans l'échantillon de l'ENM.

Par la suite, comme plusieurs ménages du sous-échantillon n'ont toujours pas répondu à la fin des activités de collecte, le poids de sondage est ajusté pour corriger la non-réponse résiduelle à l'enquête. Pour ce faire, le poids des ménages non répondants est transféré aux ménages répondants les plus proches voisins. Ceux-ci sont identifiés de façon similaire au processus d'imputation décrit à la section 4.2, à l'aide de variables connues pour les ménages non répondants et les ménages répondants telles que les variables du recensement et quelques variables résultant d'appariements à des bases de données administratives.

Finalement, un calage des poids à des totaux du recensement est fait à l'échelle de régions géographiques de calage. Celles-ci contiennent en moyenne environ 2 300 logements ou 5 600 personnes de la population cible de l'ENM. Elles sont formées en regroupant des aires de diffusion de manière à être contigües, à avoir un nombre de ménages répondants suffisant pour que le calage puisse être facilement effectué et à respecter les limites des divisions de recensement et, autant que possible, celles des sous-divisions de recensement et des secteurs de recensementFootnote1. Le calage est fait afin que les estimations d'une région de calage de l'ENM soient approximativement égales aux chiffres du recensement pour cette région et cela, sur un ensemble d'une soixantaine de caractéristiques communes à l'ENM et au recensement. Les totaux de contrôle utilisés portent sur l'âge, le sexe, l'état matrimonial/union libre, la structure du logement, la taille du ménage, la structure familiale et les questions sur la langue. Ils incluent le nombre de ménages et de personnes de chaque aire de diffusion composant la région de calage. Il faut noter cependant que, pour une région donnée, plusieurs totaux de calage sont éliminés selon certains critères pour éviter de nuire à la qualité générale des estimations.

Toutefois, il peut exister des différences entre les estimations de l'ENM et les chiffres du recensement pour les caractéristiques communes. Ainsi, plus la région géographique est petite, plus grand est le risque que les estimations de l'ENM soient différentes des chiffres du recensement. Cet aspect était présent avec le questionnaire complet du Recensement de 2006, mais il était plus rare étant donné les taux de réponse plus élevés et du peu de variation entre ces taux de réponse d'une région à l'autre, que ce soit pour les petites ou les grandes municipalités.

L'utilisateur est invité à porter attention aux différences potentielles entre les chiffres du Recensement de 2011 et les estimations de l'ENM pour les caractéristiques communes. Dans le cas où des différences existent, l'utilisateur devrait considérer les chiffres du Recensement de 2011 comme étant de meilleure qualité et les privilégier, car ils ne sont affectés ni par la variance d'échantillonnage de l'ENM, ni par l'erreur de non-réponse de l'ENM.

Un guide technique détaillé sur la pondération de l'ENM sera offert au début de 2014. Ce guide donnera de plus amples détails sur le processus de pondération et d'estimation.

Footnotes

Footnote 1

Il faut noter que les poids des ménages de l'ENM choisis avec certitude sont calés de manière indépendante. Ils ont donc leurs régions de calage propres qui peuvent ne pas respecter les limites des divisions de recensement.

Return to footnote 1 referrer

Date de modification :