Bienvenida

Este espacio virtual esta creado con la intención de facilitar y promover el aprendizaje, empleando las herramientas que nos brinda la informática y aprovechando las facilidades de la tecnología. Sapere Aude, "Atrevete a saber".

martes, 14 de junio de 2011

Estadística inferencial: un enfoque introductorio

NOCIONES FUNDAMENTALES DE INFERENCIA ESTADÍSTICA


                                                                     
Canavos (1988), en su libro Probabilidad y estadística, aplicaciones y métodos, comenta:

“Para mucha gente, estadística significa descripciones numéricas. Esto puede verificarse fácilmente al escuchar, un domingo cualquiera, a un comentarista de televisión narrar un juego de fútbol. Sin embargo, en términos más precisos, la estadística es el estudio de los fenómenos aleatorios. En este sentido la ciencia de la estadística tiene, virtualmente, un alcance ilimitado de aplicaciones en un espectro tan amplio de disciplinas que van desde las ciencias y la ingeniería hasta las leyes y la medicina. El aspecto más importante de la estadística es la obtención de conclusiones basadas en los datos experimentales. Este proceso se conoce como inferencia estadística. Si una conclusión dada pertenece a un indicador económico importante o a una posible concentración peligrosa de cierto contaminante, o bien, si pretende establecer una relación entre la incidencia de cáncer pulmonar y el fumar, es muy común que la conclusión esté basada en la inferencia estadística.

Para comprender la naturaleza de la inferencia estadística, es necesario entender las nociones de población y muestra. La población es la colección de toda la posible información que caracteriza a un fenómeno. En estadística, población es un concepto mucho más general del que tiene la acepción común de esta palabra. En este sentido, una población es cualquier colección ya sea de un número finito de mediciones o una colección grande, virtualmente infinita, de datos acerca de algo de interés. Por otro lado, la muestra es un subconjunto representativo seleccionado de una población. La palabra representativo es la clave de esta idea. Una buena muestra es aquella que refleja las características esenciales de la población de la cual se obtuvo. En estadística, el objetivo de las técnicas de muestreo es asegurar que cada observación en la población tenga una oportunidad igual e independiente de ser incluida en la muestra. Tales procesos de muestreo conducen a una muestra aleatoria. Las observaciones de la muestra aleatoria se usan para calcular ciertas características de la muestra denominadas estadísticas. Las estadísticas se usan como base para hacer inferencias acerca de ciertas características de la población, que reciben el nombre de parámetros. Así, muchas veces se analiza la información que contiene una muestra aleatoria con el propósito principal de hacer inferencias sobre la naturaleza de la población de la cual se obtuvo la muestra.

En estadística la inferencia es inductiva porque se proyecta de lo específico (muestra) hacia lo general (población). En un procedimiento de esta naturaleza siempre existe la posibilidad de error. Nunca podrá tenerse 100% de seguridad sobre una proposición que se base en la inferencia estadística. Sin embargo, lo que hace que la estadística sea una ciencia (separándola del arte de adivinar la fortuna) es que, unida a cualquier proposición, existe una medida de la confiabilidad de ésta. En estadística la confiabilidad se mide en términos de probabilidad. En otras palabras, para cada inferencia estadística se identifica la probabilidad de que la inferencia sea correcta”.

Más adelante, desarrollando el tema de probabilidad refiere:

“La probabilidad es un mecanismo por medio del cual pueden estudiarse sucesos aleatorios, cuando éstos se comparan con los fenómenos determinísticos. Por ejemplo, nadie espera predecir con certidumbre el resultado de un experimento tan simple como el lanzamiento de una moneda. Sin embargo, cualquier estudiante de primer año de licenciatura en física debe ser capaz de calcular el tiempo que transcurrirá para que un objeto, que se deja caer desde una altura conocida, llegue al suelo.

La probabilidad tiene un papel crucial en la aplicación de la inferencia estadística porque una decisión, cuyo fundamento se encuentra en la información contenida en una muestra aleatoria, puede estar equivocada. Sin una adecuada compresión de las leyes básicas de la probabilidad, es difícil utilizar la metodología estadística de manera efectiva.

Para ilustrar el uso de la probabilidad en la toma de decisiones, considérese el siguiente ejemplo: una compañía produce un detergente líquido que se envasa en botellas de 500 ml, las que son llenadas por una máquina. Debido a que las botellas que contienen una cantidad mayor de 500 ml representa una pérdida para la compañía y todas aquellas que contienen una cantidad menor constituyen una pérdida para el consumidor (lo que puede desencadenar una acción legal en contra de la empresa), la compañía realiza todos los esfuerzos necesarios para mantener el volumen neto promedio en un nivel de 500 ml. Para mantener un control apropiado se ideó el siguiente esquema de muestreo: se seleccionarán 10 botellas del proceso de llenado, cuatro veces durante el transcurso del día y se determinará su contenido neto promedio. Si éste se encuentra entre 498 y 502 ml, inclusive, el proceso se considerará “bajo control”; de otra manera, éste se encontrará “fuera de control”. En este caso, se detendrá el llenado, llevando a cabo todos los esfuerzos necesarios para determinar la causa, si es que existe, del problema. Con toda seguridad y para cualquiera de las dos situaciones se tienen riesgos. Si el proceso se considera bajo control, podría encontrarse fuera de éste, y la compañía puede estar perdiendo el producto o sujetándose a una acción legal por parte de las correspondientes oficinas del gobierno. Por otro lado si el proceso se considera fuera de control, puede en realidad encontrarse bajo control y la compañía estará intentando localizar una falla inexistente. La evaluación de estos riesgos sólo puede hacerse de manera efectiva a través del uso de la probabilidad”.

En relación a la prueba de hipótesis como método de inferencia estadística, plantea:

“Una hipótesis estadística es una afirmación con respecto a alguna característica desconocida de una población de interés. La esencia de probar una hipótesis estadística es decidir si la afirmación se encuentra apoyada por la evidencia experimental que se obtiene a través de una muestra aleatoria… La decisión acerca de si los datos muestrales apoyan estadísticamente la afirmación se toma con base en la probabilidad, y, si ésta es mínima, será rechazada”.

Para comprender a cabalidad todo lo relacionado con este tema, es necesario manejar la terminología correcta. Al respecto, el autor afirma:

“Una hipótesis nula debe considerarse como verdadera a menos que exista suficiente evidencia en contra. En otras palabras, se rechazará la hipótesis nula… sólo si la evidencia experimental se encuentra muy en contra de esta afirmación… Para construir una regla de decisión apropiada… es necesario establecer una hipótesis alternativa que refleje el valor posible o intervalo de valores del parámetro de interés si la hipótesis nula es falsa. Esto es, la hipótesis alternativa representa alguna forma de negación de la hipótesis nula… y puede ser simple o compuesta”.

“Un paralelo muy cercano a esta interpretación es el de los procesos judiciales en los que el acusado es inocente hasta que se demuestre lo contrario. Esto es, definiendo a la hipótesis nula como ‘inocente’, se insiste en que se rechazará sólo si el juicio proporciona evidencia suficiente en contra de ésta”.

“Al hacer esto deben tomarse en cuenta las consecuencias que pueden originarse como resultado del verdadero estado de la naturaleza… En forma sencilla, existen dos posibles decisiones con respecto a H0: rechazar H0 o no rechazar H0. Sin embargo, cada una de estas decisiones tiene las siguientes dos consecuencias con respecto al estado de la naturaleza: si la decisión es el rechazar a H0, entonces puede que se rechace algo que es cierto (decisión incorrecta) o que se rechace algo que en realidad es falso (decisión correcta). Si no se puede rechazar H0, entonces no puede rechazarse algo que es cierto (decisión correcta), o no puede rechazarse algo que en realidad es falso (decisión incorrecta). Por lo tanto, si la decisión es rechazar o no la hipótesis nula, existen dos posibilidades de tomar una decisión equivocada con respecto al verdadero estado de la naturaleza”.

Cuando se hace referencia al “verdadero estado de la naturaleza” se está ilustrando la medida exacta del parámetro analizado, en otras palabras, su verdadero valor. El lector también debe notar que, aunque pueda parecer confuso, el autor ha limitado el uso de la palabra “aceptar” sustituyéndola por “no rechazar”. Más allá de que en términos gramaticales la redacción pudiera simplificarse empleando la primera, el sentido estadístico exige que se utilice como tal. En la medida que el estudiante se familiarice con la lectura estadística, adquirirá una comprensión más amplia del tema y una capacidad de pensamiento más desarrollada. Esto se hace evidente en otro fragmento del texto:

“Se regresará a la analogía del proceso judicial para proporcionar una idea más clara sobre la materia. Si la hipótesis nula es ‘inocente’, entonces, con toda seguridad, la hipótesis alternativa es ‘culpable’. El rechazo de la hipótesis nula implicaría que el juicio ha sido capaz de proporcionar suficiente evidencia para garantizar un veredicto de culpable. Por otro lado, si el juicio no presenta evidencia sustancial, el veredicto será inocente. Esta decisión no implica necesariamente que el acusado sea inocente, más bien hace énfasis en la falta de evidencia sustancial necesaria para condenar al acusado. Por lo tanto, en cierto sentido, un veredicto de culpable (el rechazo de H0) debe considerarse como una decisión más fuerte que un veredicto de inocente (equivocación al rechazar H0), lo cual surge del principio judicial generalmente aceptado de que es peor condenar a una persona inocente que dejar ir a una culpable. Si el veredicto es culpable, se desea tener un grado muy alto de seguridad de que no se va a condenar a una persona inocente. Por lo tanto, en muchas situaciones el error tipo I se considera como un error mucho más grave que el error tipo II… Es por esta razón que se dice ‘no rechazar H0 más que ‘aceptar H0’ cuando la evidencia muestral no apoya el rechazo de la hipótesis nula”.

Para finalizar, es pertinente considerar la relación entre los errores que pueden cometerse al inducir un resultado a partir de la experimentación. El artículo tiene la intención de aclarar medularmente este concepto suministrando las bases para expandir la consciencia y la comprensión de estos aspectos. A tal efecto, debe tenerse siempre presente que el “estado de la naturaleza” sólo admite dos posibilidades: cierto o falso; esto es, los errores son eventos mutuamente excluyentes. Al respecto el escritor cita:

“… sólo es posible el error tipo I cuando la decisión es la de rechazar la hipótesis nula, mientras que el error tipo II sólo es posible cuando la decisión es la de no rechazarla. En otras palabras, si la hipótesis nula es cierta, sólo puede cometerse un error tipo I; si la hipótesis nula es falsa, sólo puede cometerse el error tipo II. No pueden cometerse ambos errores en forma simultánea”.

BIBLIOGRAFÍA

Canavos, George C. (1988). Probabilidad y Estadística. Aplicaciones y métodos. Editorial McGraw-Hill Interamericana de México, S.A. de C.V.

5 comentarios:

  1. Felicidades por tu produccion en este modulo y por el tema tan interesante que planteaste sobre la estadistica.

    ResponderEliminar
  2. Gracias profe, me honra con su comentario. Me gustaría que revisara una discusión previa relacionada con el uso que cada uno de nosotros da a la estadística. Quisiera conocer sus experiencias.

    JD.

    ResponderEliminar
  3. felicitaciones por la creacion de tu blog, igualmente te invito a consultar la informacion publicada en mi blog sobre la normalizacion en la poblacion de Puerto Rico del wiscIV que es una prueba psicologica que mide inteligencia, disenada y estandarizada en los EEUU originalmente.

    ResponderEliminar
  4. Gracias mi amor, será un honor, ya mismo lo reviso. Un abrazo

    ResponderEliminar
  5. Hey!!! Juan que bien te ha quedado el blog... felicitaciones.. creo que me falta mucho por aprender... pero pronto, pronto estaré en eso... :-)

    ResponderEliminar