PORTAL ESTADÍSTICA APLICADA

 

Regresión o Ajuste

La observación de una variable estadística bidimensional (X, Y) conlleva la representación de los puntos obtenidos en una nube o diagrama de dispersión.

El problema general de regresión se plantea en el intento de ajustar una función de ecuación conocida (recta, parábola, exponencial, etc.) a la nube de puntos en cuestión, con el interés de obtener una 'predicción' aproximada de una de las variables a partir de la otra.

Entre todas las funciones que se pueden elegir para ajustar a la nube de puntos, ha de seleccionarse la óptima, es decir, la que mejor encaje sobre los puntos, para lo cual se recurre al método de los mínimos cuadrados.

 

Línea de regresión

La función que se pretende obtener será una línea que denotaremos por línea de regresión, cuya ecuación puede ser de distintas formas:

Recta

y = a + b x

 

Parábola

y = a + b x + c x2

Exponencial

y = k ea x

.......................

............................

La regresión adoptará un nombre distinto, dependiendo de la función elegida para el ajuste. De este modo, cuando es una recta, se denomina 'regresión lineal'; cuando es una parábola, se tiene la 'regresión parabólica, etc.

 

Método

Dependiendo de la forma que adopta le nube de puntos, en un principio, se intuirá si ha de emplearse una recta, una parábola, una función mixta, etc. Una vez elegida la línea se han de estimar los parámetros correspondientes de la misma a partir de los datos observados.

En estos casos, los parámetros a estimar serían: 'a', 'b' y 'c'.

Finalmente, una vez realizada la estimación ha de verificarse si efectivamente el ajuste era el idóneo o no. Para ello, se emplean cualesquiera de los tests construidos para estudiar la bondad del ajuste. El test más utilizado es el de la c 2 (chi-cuadrado) de Pearson.

 

Regresión Lineal Mínimo Cuadrática

Cuando la línea de regresión que mejor se ajusta a la nube de puntos es la recta, es un problema de regresión lineal y distinguiremos dos casos:

a> Recta de regresión de Y sobre X: Se obtienen valores aproximados de la variable Y conocidos los valores de la variable X

b> Recta de regresión de X sobre Y: Se obtienen valores aproximados de la variable X conocidos los valores de la variable Y

 

Recta de regresión de Y sobre X

[ y = a + b x ]

 

En cada par de valores (X, Y) consideramos que al valor observado xi le corresponde un valor observado o experimental yj y otro teórico que sería el que le correspondiera en la recta como función. A la distancia entre estos dos valores, teórico y experimental, la denotamos:

El 'método de los mínimos cuadrados' para la obtención de los parámetros 'a' y 'b', toma estas distancias al cuadrado para que no se puedan contrarrestar los signos positivos y negativos, y hacer mínima su suma. En consecuencia, se trata de minimizar la expresión:

Para simplificar el mecanismo en la obtención de la recta de regresión de Y sobre X, suponemos que cada par se repite una sola vez, descartando multiplicidades (ni, j). Por otro lado, para minimizar M, tenemos en cuenta que los valores teóricos sobre la recta son:

 

Hallando las derivadas parciales, respectivamente, de 'a' y 'b' e igualando las ecuaciones resultantes a cero, se tiene:

 

 Con las propiedades del sumatorio, resulta:

Resulta, el sistema de ecuaciones normales de la recta:

 

 

Dividiendo las dos expresiones por N, y como suponemos que la frecuencia absoluta [ ni j = 1 ] de cada par es la unidad, resulta:

Considerando el valor de los Momentos, se tiene:

 

de donde,

Ecuación recta regresión de Y sobre X

 

Test Bondad de Ajuste

Se aplica el test de la c 2 de Pearson para ver si el conjunto de datos observados coincide o no con el conjunto de datos esperados o teóricos. En este sentido, se establece la hipótesis nula:

Ho: " Diferencias entre valores observados y teóricos son debidos al azar"

Se acepta la hipótesis nula Ho a un nivel de significación a , cuando

 En caso contrario, se rechaza la Hipótesis nula.

NOTA.- 'p' es el número de parámetros que necesitamos hallar para obtener los valores teóricos (en el caso de la regresión lineal, p = 2)

Coeficiente (b YX) de regresión

El coeficiente de regresión se suele denotar por b YX, es la pendiente (el coeficiente angular) de la recta de regresión de Y sobre X, siendo: 

 

 

Coeficiente r de correlación lineal

El coeficiente de correlación lineal  r es un número abstracto que determina el grado de ajuste entre una nube de puntos y una recta de regresión. Esta definido por la media geométrica de los coeficientes de regresión lineal.

 

Recta de regresión de X sobre Y

[ x = c + d y ]

Por un proceso exactamente igual, se llega a la conclusión:

Un valor de la variable dependiente no se puede estimar legítimamente si el valor de la variable independiente está fuera del rango de los valores que sirvió como base de la ecuación de regresión.

La ecuación de regresión obtenida no se puede extrapolar para otras muestras.

Un coeficiente de correlación significativo no indica necesariamente que las variables tengan una relación causal, pero si puede indicar una concatenación con otros eventos.

Cuando la relación entre dos variables no es lineal, se puede disponer de una transformación para lograr su linealidad. Así, en distintas ciencias se presentan gran número de cuestiones relacionadas con la regresión potencial, exponencial, logística, etc.

 

En la muestra, mediante la recta de regresión, dado un valor

 

se puede estimar el valor:

Para estimar un valor y0 de la población, tendremos que recurrir a un 'Intervalo de confianza'.

a) Intervalo de confianza para un valor aislado y0 con varianza poblacional s 2 conocida.

b) Intervalo de confianza para un valor aislado y0 con varianza poblacional s 2 desconocida.

 

en donde,

 

 

VARIACIÓN EXPLICADA Y NO EXPLICADA 

La variación total de la variable Y se define como

 

 

 

 

El tercer sumando del segundo término es cero. Este sumando es cero, independientemente que la regresión sea o no lineal. En efecto:

 

con lo cual,

 

La variación no explicada VNE se comporta de una forma aleatoria o no previsible, mientras que la variación explicada VE tiene un patrón bien definido.

 

OBSERVACIÓN.- La descomposición de la variación total VT :

VT = VNE + VE

puede ser demostrada igualmente para todo tipo de regresión no lineal, empleando la curva de los mínimos cuadrados dada por:

Contraste de Hipótesis para el Coeficiente de Correlación Poblacional r

Se formula la Hipótesis nula Ho diciendo que las variables están incorreladas, es decir, no existe relación entre las variables.

El estadístico de contraste es:

Se acepta la hipótesis nula Ho, por tanto, a un nivel de significación a , no existe relación alguna entre las variables, cuando:

Se rechaza la hipótesis nula Ho, por tanto, a un nivel de confianza (1- a ), existe relación entre las variables, cuando:

 

Se conocen los Conceptos Estadísticos ....

 

VARIACIÓN EXPLICADA Y NO EXPLICADA 

La variación total de la variable Y se define como

 

 

 

 

El tercer sumando del segundo término es cero. Este sumando es cero, independientemente que la regresión sea o no lineal. En efecto:

 

con lo cual,

 

La variación no explicada VNE se comporta de una forma aleatoria o no previsible, mientras que la variación explicada VE tiene un patrón bien definido.

 

OBSERVACIÓN.- La descomposición de la variación total VT :

VT = VNE + VE

puede ser demostrada igualmente para todo tipo de regresión no lineal, empleando la curva de los mínimos cuadrados dada por:

VARIANZA RESIDUAL

Cuando para describir una variable estadística, se utiliza su media, la crítica de la representatividad de ésta viene dada mediante la medida de dispersión que conocemos con el nombre de varianza.

Ahora bien, si para la descripción de la variable utilizamos la línea de regresión, la crítica de la representatividad se efectúa mediante la llamada varianza residual.

La varianza residual de la variable dependiente Y, se define como:

 

ERROR ESTÁNDAR DE LA REGRESIÓN

El 'error estándar de la regresión' es perfectamente general, es decir, para todo tipo de regresión lineal o no lineal.

Cuando la línea de regresión es un polinomio: y = a + b1 x + b2 x2 + ... + bnxn el error estándar de la regresión será:

COEFICIENTE de DETERMINACIÓN

Se entiende por 'coeficiente de determinación' a la razón entre la variación explicada VE y la variación total VT, es decir:

En consecuencia, 0 £ r 2 £ 1. Adviértase que r 2 es una cantidad sin dimensiones, esto es, no depende de las unidades empleadas.

Este concepto puede extenderse tanto a ecuaciones de regresión lineales como no lineales.

Algunos estadísticos prefieren definir el coeficiente de determinación muestral como r2.

Aquí, cuando ha sido conveniente distinguir los estadísticos poblacionales y muestrales, se denotan los estadísticos muestrales mediante un (*).

OBSERVACIÓN

Conviene señalar la relación existente entre la 'varianza residual' y el 'coeficiente de determinación'. Sabemos que,

 

COEFICIENTE de CORRELACIÓN

Es un número abstracto que determina el grado de ajuste entre una nube de puntos (diagrama de dispersión) y una línea de regresión, se define:

En el caso del coeficiente de correlación lineal, también puede definirse como la media geométrica de los coeficientes de regresión lineal, esto es:

Obsérvese que, en la demostración, se ha considerado:

REGRESIÓN PARABÓLICA

Se resuelve un ajuste polinomial para el caso de grados dos. El método empleado es válido en general para un polinomio de grado 'n'.

Sea la parábola: y = a + b x + c x2

El objetivo es estimar los parámetros 'a', 'b' y 'c' a partir de los datos observados, empleando el método de los mínimos cuadrados

La función para minimizar es:

Derivando respecto a los tres parámetros, se obtiene:
 

 
 

Aplicando las propiedades del sumatorio y simplificando se obtienen las 'ecuaciones normales de la parábola de regresión':
 


 

Se tiene un sistema de tres ecuaciones con tres incógnitas, obteniendo los valores de los parámetros 'a', 'b', 'c'. Obteniendo la ecuación de la parábola. 

En el supuesto de que se diera la no multiplicidad de (X, Y) y que cada par se repitiese una sola vez, las 'ecuaciones normales de la parábola de regresión' serían:

 

REGRESIÓN EXPONENCIAL

En determinados experimentos, en su mayoría biológicos, la dependencia entre las variables X e Y es de forma exponencial, en cuyo caso interesa ajustar a la nube de puntos una función del tipo: y = ea+bx

Con una transformación de linealidad, tomando logaritmos neperianos, se convierte el problema en una cuestión de regresión lineal. Es decir:
 

Tomando logaritmos neperiano: Ly = a + bx

Llamando Y = Ly, tendremos Y = a + bx (regresión lineal)
 

Para simplificar, descartando multiplicidades y suponiendo que cada par se repite una sola vez, las ecuaciones normales serán:
 


 

Calculando los parámetros 'a' y 'b', se tiene la ecuación de la función exponencial: y = ea+bx

 

REGRESIÓN HIPERBÓLICA

Cuando la dependencia entre las variables X e Y es de forma hiperbólica, interesa ajustar a la nube de puntos una función del tipo: y = a + b/x

La función a minimizar será:
 

por tanto,


 

Para minimizar la expresión, hallamos las derivadas parciales respecto a los parámetros 'a' y 'b', igualando a cero:
 


 

En consecuencia, las ecuaciones normales serán:
 

PREMIO NOBEL DE ECONOMÍA (1969-2016)

 

Portal Estadística Aplicada. Consultoría Estadística-Econometría