Introducción

El muestreo estudia el problema de seleccionar subconjuntos (muestras) de una población dada con el fin de estimar con precisión características de tal población. Las características de una población son aquellas cantidades que resultan de la agregación completa (sobre toda la población) de una medición de los elementos de la población.

Ejemplos:

Definir la población objetivo, la forma de medición, y las características poblacionales de interés, no son en general porblemas triviales. Por ejemplo, ¿Exactamente como definimos votantes potenciales? ¿Cómo definir hogares? ¿Cómo diseñar un examen estandarizado de matemáticas? ¿Qué quiere decir piensa votar por X? Estas y más preguntas se deben analizar con cuidado al definir el problema a abordar; sin embargo, por ahora ignoraremos estos aspectos y nos concentramos en la selección de muestras.

Comenzamos con notación, denotamos las poblaciones como

\[\Omega = \{\omega_1,\omega_2,...,\omega_N\}\] donde \(N\) es el tamaño de la población y \(\omega_1,\omega_2,...,\omega_N\) son los elementos de la misma. A cada \(\omega_i\) le corresponde la medición de interés que denotamos por \(y_1,y_2,...,y_N\) (donde \(y_i\) es la medición correspondiente a \(\omega_i\)).

Entonces, la idea básica del muestreo es la siguiente:

Una muestra aleatoria y suficientemente grande es similar (bajo ciertas consideraciones que dependen de como se seleccione la muetsra) a la población en las características de interés con probabilidad alta.

Esto captura la idea básica; sin embargo, en algunos casos y por diversas razones, podemos sesgar la muestra de maneras conocidas para economizar o hacer más eficiente nuestro esquema de muestreo. En este caso, la similitud de muestra y población es bajo ciertos requisitos de manejo de datos.

El muestreo generalmente se basa en un enfoque basado en diseño, en contraste al enfoque más común de la estadística que es basado en modelos. Esto se puede ver en que las mediciones de la población de interés no son variables aleatorias, si no valores fijos, e introducimos aleatoriedad a través de aleatoriedad en la selección de la muestra. En el enfoque de modelos, las cantidades observadas son más bien variables aleatorias con cierta distribución (modelo).

Ejemplo: Votación presidencial 2006

Consideremos los datos del INE correspondientes a la elección presidencial de 2006 en el DF. La población es de \(N=12235\) casillas, la medición que nos interesa en cada casilla es si el PAN le ganó al PRD en número de votos. Ponemos entonces \(y_i=1\) si en la i-ésima casilla el PAN le ganó al PRD y \(y_1=0\) si no. La característica poblacional es el porcentaje de casillas donde el PAN le ganó al PRD, y se puede escribir como:

\[\frac{1}{N}\sum_{i=1}^n y_i\]

Consideramos muestras aleatorias de tamaño 200, donde cada posible muestra sin reemplazo de la población tiene la misma probabilidad de ser seleccionada.

library(plyr)
library(dplyr)

Attaching package: 'dplyr'

The following objects are masked from 'package:plyr':

    arrange, count, desc, failwith, id, mutate, rename, summarise,
    summarize

The following object is masked from 'package:stats':

    filter

The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union
library(ggplot2)
library(readr)
eleccion_df <- read_delim("datos/eleccion_df.txt", delim = ";")
head(eleccion_df)
Source: local data frame [6 x 19]

  ID_ENT     NOMBRE_EDO_M DISTRITO_TXT           CAB_MIN           NOM_MIN
1      9 Distrito Federal            1 Gustavo A. Madero                  
2      9 Distrito Federal            1 Gustavo A. Madero Gustavo A. Madero
3      9 Distrito Federal            1 Gustavo A. Madero Gustavo A. Madero
4      9 Distrito Federal            1 Gustavo A. Madero Gustavo A. Madero
5      9 Distrito Federal            1 Gustavo A. Madero Gustavo A. Madero
6      9 Distrito Federal            1 Gustavo A. Madero Gustavo A. Madero
Variables not shown: TIPO_ELECCION (chr), SECCION (int), CASILLA (chr),
  PAN (int), APM (int), PBT (int), NVA_A (int), ASDC (int),
  NO_VOTOS_CAN_NREG (int), VALIDOS (int), NO_VOTOS_NULOS (int), TOTAL
  (int), LISTA_NOMINAL (int), ESTATUS (lgl)

Definimos el tamaño de muestra y extraemos una muestra como se describió arriba:

# tamaño de la población
N <- nrow(eleccion_df)
N
[1] 12235
# tamaño de muestra
n <- 200
set.seed(8372973)

muestra <- sample_n(eleccion_df, size = n)
dim(muestra)
[1] 200  19

Ahora examinamos en nuestra muestra el número de casillas en las que el PAN le ganó al PRD:

muestra$PAN_mayor_PRD <- muestra$PAN > muestra$PBT
table(muestra$PAN_mayor_PRD)

FALSE  TRUE 
  170    30 
prop.table(table(muestra$PAN_mayor_PRD))

FALSE  TRUE 
 0.85  0.15 

¿Cómo podríamos estimar en la población total el porcentaje de casillas donde el PAN le ganó al PRD? Como la muestra es aleatoria, y suponiendo que el tamaño de muestra es suficientemente grande, esperaríamos que la distribución de la cantidad de interés en la muestra sea similar a la correspondiente en la población. Esto quiere decir que si en la muestra observamos que la proporción de casillas donde el PAN le ganó al PRD es

sum(muestra$PAN_mayor_PRD) / n
[1] 0.15

entonces la proporción debe ser similar en la población total, y este último número es nuestra estimación para la población total. En este ejemplo tenemos el valor para toda la población por lo que podemos ver como se compara la estimación con el valor real.

sum(eleccion_df$PAN > eleccion_df$PBT) / N
[1] 0.139

En la misma situación que el ejemplo anterior, supongamos ahora que queremos estimar el total de votos emitidos en favor del PRI.

¿Cómo estimamos el total de votos por el PRI? Si el tamaño de muestra es suficiente, como la muestra fue elegida al azar, la muestra debe ser similar a la población con probabilidad alta.

Podemos empezar por calcular el total de la muestra de 200 casillas:

sum(muestra$APM)
[1] 7049

En este caso, si la muestra es similar a la población, deberíamos estimar el total poblacional mediante:

\[\frac{N}{n}\sum_{i\in S}y_i\]

donde la suma recorre aquellos elementos que se seleccionaron en la muestra. En contraste con el ejemplo anterior, aquí vemos que es necesario expandir la suma (de 200 casillas) al total (12235 casillas). Esto es razonable si la muestra es una especie de microcosmos de la población total. Estamos suponiendo que las 61.17 casillas (\(N/n=61.17\)) que representa cada una de las casillas de la muestra se comportan de manera similar a las que están en la muestra.

N / n * sum(muestra$APM)
[1] 431223

¿Qué tan precisas son estas estimaciones? Para conocer el valor exacto sería necesario conocer el verdadero valor poblacional, el cuál no esta disponibles (por eso queremos estimarlo). Es aquí donde los conceptos de aleatorización y similar con probabilidad alta son importantes: el estimador es una variable aleatoria cuyo azar está inducido por la selección aleatoria de la muestra. Esto quiere decir que tiene una distribución, si la probabilidad de tal distribución está altamente concentrada alrededor del verdadero valor poblacional, entonces una estimación particular basada en una muestra particular tiene alta probabilidad de estar cerca del verdadero valor.

Observación: No todas las muestras dan buenas estimaciones. Por ejemplo, si seleccionamos deliberadamente a las casillas con menor número de votos por el PRI, obtendríamos:

# selecciona las primeras 200 ordenadas (ascendentemente) por votos PRI
muestra_menor_pri <- eleccion_df %>%
  arrange(APM) %>%
  slice(1:200)
N / n * sum(muestra_menor_pri$APM)
[1] 115498

que esta muy lejos del verdadero valor, que es:

pri_pob <- sum(eleccion_df$APM)
pri_pob
[1] 413644

La muestra anterior podría obtenerse de manera aleatoria; sin embargo, es muy poco probable (menos de \(2^{-100}\)) que esto ocurra de manera aleatoria. La probabilidad es menor que la probabilidad de escoger un átomo en particular del total de los que hay en el universo. La mayor parte de las muestras de tamaño 200 representan apropiadamente a la población en cuanto a votos del PRI, como lo demuestra el siguiente ejercicio.

No podemos calcular todas las posibles muestras y ver las estimaciones que produce cada una de ellas, pero si podemos simular miles de ellas y darnos una idea muy buena de los valores que puede tomar el estimador total:

# escribimos una función que toma una muestra de tamaño n cada vez que se ejecuta
totalPriMuestra <- function(n = 200){
  muestra <- sample_n(eleccion_df, n)
  total <- N / n * sum(muestra$APM)
  total
}
# llamamos la función 10,000 veces
totales_estimados <- rdply(10000, totalPriMuestra)
head(totales_estimados)
  .n     V1
1  1 414155
2  2 431345
3  3 397332
4  4 391214
5  5 395190
6  6 410545
ggplot(totales_estimados, aes(x = V1)) +
  geom_histogram() +
  geom_vline(xintercept = pri_pob, color = "red")

En el histograma anterior vemos que en 10,000 selecciones aleatorias de una muestra de tamaño 200, las estimaciones producidas están razonablmente cerca del verdadero valor representado por la línea roja. Calculamos los cuantiles 0.025 y 0.975 de estos valores.

cuantiles <- quantile(totales_estimados$V1, probs = c(0.025, 0.975))
cuantiles
  2.5%  97.5% 
392744 435688 
cuantiles_relativos <- cuantiles / sum(eleccion_df$APM) - 1
cuantiles_relativos
   2.5%   97.5% 
-0.0505  0.0533 

E interpretamos: con probabilidad 95%, la estimación producida por este método está a menos de 5.2% del valor verdadero. Es decir, el error relativo de estimación es de menos de 5.2% con probabilidad 95%. Si este error relativo es aceptable para nosotros, entonces confirmamos que nuestro método de muestreo con muy alta probabilidad dará un resultado aceptable.

Muestreo probabilístico

Un esquema de muestreo probabilítsico es uno donde la selección de la muestra incorpora elementos de azar. Sin embargo, no cualquier esquema es apropiado para hacer inferencia, y algunos son apropiados en unas situaciones y no en otras. Por ejemplo, para una población grande (una ciudad, por ejemplo) en muy pocos casos consideraríamos que un esquema donde sólo dos elementos tienen probabilidad positiva de ser elegidos es apropiado para estimar con presición una característica poblacional.

Es relativamente fácil establecer algunos supuestos no muy restrictivos y estimadores asociados con los que es razonable comenzar a trabajar. Por ejemplo, si las siguientes cuatro condiciones se cumplen, entonces es posible hacer inferencia a partir de una muestra dada.

Supuestos básicos para el muestreo probabilístico:

  1. Cada individuo de la población tiene probabilidad positiva \(\pi_{i}>0\), \(i=1,2,...,N\) de ser seleccionado en la muestra.

  2. \(\pi_i\) se puede calcular para cada elemento seleccionado en la muestra.

  3. Cada par de individuos en la población tiene probabilidad positiva \(\pi_{ij}>0\), \(i,j=1,2,...,N\) de ser seleccionado en la muestra.

  4. \(\pi_{ij}\) se puede calcular para cada par de individuos seleccionado en la muestra.

Observaciones: