Como habrás visto en la Teoría, se pueden estimar unas características numéricas de la población, llamadas parámetros, mediante unas medidas efectuadas en la muestra, a las que llamaremos estadísticos. Los más populares son:
La media: Mediante el promedio de los datos de una muestra se intenta inferir qué media tendrá la población. Por ejemplo, se mide la resistencia de unos tornillos y se desea con ellos estimar qué resistencia ofrecerán los tornillos fabricados en un largo periodo de tiempo.
La proporción: Es la estimación propia de las encuestas, y por tanto de la de nuestro ejemplo. Se calculan porcentajes en la muestra y con ellos se estiman las proporciones en la población.
La varianza: Se mide la variabilidad de la muestra y con ella se estima la de la población. En este caso no se usa la desviación típica, sino un estadístico muy parecido, la cuasidesviación típica o desviación estándar. Por ejemplo, midiendo las varianzas de varios exámenes de una asignatura en varios cursos se puede inferir la que esperaremos en el próximo curso.
Iremos viendo ejemplos de cada caso. No es necesario que memorices o estudies a fondo la teoría, sino más bien observa cómo trabajan los modelos de esta sesión.
Hay dos clases de estimación:
Puntual: Consiste en asignar al parámetro de la población el mismo valor que su correspondiente estadístico en la muestra. Es una operación muy arriesgada, porque normalmente no coinciden los dos valores. Si así fuera, acertarían todos los sondeos previos a las elecciones.
Por intervalos: En esta modalidad se rodea el valor de la estimación de todo un intervalo de tolerancia, llamado intervalo de confianza (coloquialmentehorquilla), en el que se puede evaluar la probabilidad de que figure el verdadero valor del parámetro. Así, si afirmamos que (8,22 , 9,40) es un intervalo de confianza al 96% para la media de una población, queremos indicar que en un 96% de las estimaciones similares que se realizaran, en un 96% de los casos la media pertenecería a ese intervalo, y sólo en un 4% caería fuera.
Propiedades de la muestra y la población
La profesora de Historia desea efectuar una estimación, pues dispone de los datos de una muestra y con ellos quiere descubrir qué ocurrirá en la población. En estos casos conviene repasar las propiedades de la población y la muestra que se estudian.
Cuando se realiza una estimación hay que tener en cuenta las propiedades matemáticas de los estimadores, pero en este curso intentaremos profundizar lo mínimo posible en ellas. Se pueden estudiar en textos especializados.
Población
Suponemos que es infinita, pues se trata de todos los votantes de Europa. No es necesario tener en cuenta más supuestos en el caso de la proporción.
Muestra
La muestra no es aleatoria, pues se trata de los alumnos de la profesora. Esto resta valor a la encuesta que va a efectuar, por lo que su estudio se queda en simplemente académico. La muestra es grande, y eso nos permite usar la distribución normal. Con muestras tan grandes podemos identificar en las fórmulas las proporciones de las muestras y las de la población.
En el ejemplo que estudiamos usaremos un nivel de confianza del 5%. En la práctica significará que si repitiéramos el experimento 20 veces, se espera acertar en 19 y errar en una. Es lo normal en casi todas las situaciones. Si deseamos más rigor, usaremos un 1%, por ejemplo.
Como lo que nos interesa es la proporción, dividiremos cada resultado entre el total de encuestados:
Proporciones en la votación | |
SI | 0,475 |
NO | 0,35 |
No sabe/No contesta | 0,175 |
La estimación tendrá estas características:
- Estadístico: Proporción
- Tamaño de la muestra: 200
- Valor del estadístico: 0,475 (las respuestas SI)
- Nivel de confianza: 95% (es el más frecuente)
Estudia el resultado. Prescinde de los detalles técnicos y fíjate en el error cometido, 0,069 (que es casi un 7%), y en el intervalo u horquilla que produce la estimación:
Intervalo de confianza | ( 0,406 , 0,544) |
Intervalo de confianza
Este intervalo (llamado intervalo de confianza u horquilla) significa que si la verdadera proporción fuera 0,475 y realizáramos muchos muestreos, en un 95% de las muestras, la proporción estaría comprendida entre estos límites, y sólo un 5% estaría fuera.
Por tanto, al ser el límite superior 0,54, concluimos que es posible que se gane el Referendum, aunque no tenemos gran seguridad. Si deseamos aumentar la precisión del sondeo deberemos usar una muestra mayor, con el consiguiente gasto en tiempo y dinero.
Estimación de la varianza
Aprenderemos a estimar la varianza mediante un ejemplo:
A un profesor de Matemáticas de 2º de Bachillerato le ha comentado un colega que él obtiene en sus exámenes, desde hace años, una media 4,6 y una desviación típica de 2,1 con bastante regularidad. Este dato le hace caer en la cuenta de que llevaba tiempo preocupado porque veía mucha dispersión en sus calificaciones. Para comprobar este dato, elige al azar uno de los exámenes del curso, y obtiene este resultado:
0 | 0 | 1 | 1 | 1 | 2 | 2 | 3 | 3 | 3 |
4 | 4 | 4 | 4 | 4 | 5 | 5 | 5 | 5 | 5 |
6 | 6 | 6 | 7 | 7 | 7 | 7 | 8 | 9 | 9 |
Ante todo hay que advertir que las muestras obtenidas en la enseñanza no son aleatorias puras. Lo que se infiere de ellas no es tan válido como lo obtenido mediante diseño de experimentos. Usamos estos ejemplos por su cercanía, renunciando al rigor propio de otro tipo de curso.
Supuestos de la estimación:
- Estimador: La cuasivarianza (como estimador de la varianza de la población)
- Población: Podemos suponerla infinita, porque el profesor piensa en varios años. Tampoco se comete error suponiéndola normal.
- Muestra: La supondremos aleatoria, aunque no totalmente, ya que se ha elegido un examen al azar.
Aquí merece la pena detenerse en las cuatro medidas que contiene, además de la media de 4,43, más baja que la de su compañero:
Desviación típica: Es la desviación típica usual
y su valor en este caso es de 2,47, pero hemos explicado en la teoría, que no es un buen estimador de la desviación típica de la población, porque está sesgada.
Varianza: Es la varianza usual, el cuadrado de la anterior: 6,11 = 2,47^2. No nos vale, por la misma razón, su sesgo.
Desviación estándar o insesgada: Es la desviación típica en la que se divide entre n-1 en la fórmula, en lugar de entre n. Se puede calcular multiplicando la desviación típica usual por la raíz de n/(n-1). Este sí es un buen estimador de la desviación típica de los exámenes de ese profesor: 2,51
Cuasivarianza: Es el cuadrado de la desviación estándar, en este caso 6,32 = 2,51^2. Es el estimador insesgado de la varianza de la población.
Según estos resultados, su dispersión en las notas, tal como él sospechaba, puede ser mayor que la de su compañero, ya que ha obtenido una estimación de 2,51 y su compañero suele obtener 2,1.
Intervalo de confianza para la varianza
Para construir la horquilla o intervalo de confianza se suele usar mejor la cuasivarianza, pero existe una fórmula alternativa para el uso de la varianza. En el modelo estima.ods se usa la siguiente:
Intervalo para la varianza
Ejercicio 1
Deseamos estimar el número de hijos que por término medio tienen las familias que matriculan a sus hijos en nuestro colegio. Para ello elegimos al azar cuarenta alumnos matriculados en el presente curso y les preguntamos cuántos hermanos son en la familia. Obtenemos estos resultados:
1 | 1 | 2 | 4 | 3 | 2 | 1 | 5 | 2 | 3 |
3 | 1 | 1 | 2 | 2 | 2 | 3 | 2 | 4 | 5 |
2 | 2 | 3 | 1 | 3 | 1 | 2 | 2 | 1 | 3 |
2 | 2 | 3 | 1 | 1 | 2 | 2 | 1 | 3 | 1 |
Solución: El número de familias es grande, luego la población es, en la práctica, infinita, pero si quieres ser más realista, escribe de 1.000 a 5.000, por ejemplo. La media de hijos por familia es de 2,18, la desviación típica de 1,07, y el intervalo de confianza al 95% considerando 1.000 familias, resulta ser (1,73 , 2,63), demasiado amplio, debido a la pequeñez de la muestra.
Ejercicio 2
Dos profesores intercambian opiniones sobre la variabilidad de los resultados de unas pruebas. El primero afirma que en su materia él suele obtener una desviación típica de 2,3 en pruebas puntuadas del 0 al 10. Lleva muchos años estudiando sus resultados y este valor resume la totalidad de los ejercicios propuestos a lo largo de su vida profesional. Su compañero cree que sus pruebas presentan más homogeneidad, pero no puede demostrarlo. Para estudiar esta cuestión resume en la siguiente tabla muchos resultados de 0 a 10 obtenidos en sus últimas pruebas.
Puntuación | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
Frecuencia | 22 | 24 | 35 | 69 | 122 | 323 | 242 | 55 | 32 | 16 | 2 |
Solución: para obtener la media y desviación típica de la muestra. Deberías obtener los resultados de una media igual a 4,95 y desviación típica de 1,69 (varianza 2,87) para una muestra de 942 datos.
Aparentemente esto le da la razón: sus pruebas son más homogéneas. Para realizar una estimación por intervalos se puede acudir, con esos datos, a la hoja de cálculo estima.ods en el apartado de varianza. Con un nivel de confianza del 95%, se obtiene el intervalo (1,62 , 1,78) para la desviación típica. Como ambos son inferiores al valor de 2,3 de su compañero, deberemos aceptar que sus resultados son más homogéneos.