Capítulo 1 Curso 2016-17

1.1 PEC 13 marzo 2017 (Diseño de experimentos)

1.1.1 Ejercicio B1

En un artículo de Environment International (vol. 18, n.º 4) se describe un experimento en el que se investiga la cantidad de radón liberado en las duchas. Para ello se diseñó un experimento en el que se utilizaron diferentes tipos de duchas (en función del diámetro de los orificios de los rociadores) por las que se dejaba correr agua enriquecida con radón. Los datos del experimento se muestran en el archivo radon.txt

¿El tamaño de los orificios afecta al porcentaje promedio de radón liberado? Utilizar \(\alpha\) = 0.05 (es necesario especificar el modelo y los contrastes que se están utilizando para responder a la pregunta).
Proporciona un intervalo de confianza al 95% para el porcentaje promedio de radón liberado cuando el diámetro de los orificios es 1.40
Contrastar si el porcentaje promedio de radón liberado cuando el diámetro de los orificios es 1.40 es igual al 75% del porcentaje promedio cuando el diámetro de los orificios es 0.71. Utilizar \(\alpha\) = 0.05
Comprueba que se cumplen las hipótesis del modelo utilizado, explicando con detalle todas las comprobaciones realizadas.

1.1.2 Ejercicio B1 - Solución

1. ¿El tamaño de los orificios afecta al porcentaje promedio de radón liberado? Utilizar \(\alpha\) = 0.05 (es necesario especificar el modelo y los contrastes que se están utilizando para responder a la pregunta).

# se leen los datos del archivo radon.txt
datos = read.table('datos/radon.txt',header=T)
# del que se muestran las primeras filas
head(datos)

##   diametro radon
## 1        A    80
## 2        A    83
## 3        A    83
## 4        A    85
## 5        B    75
## 6        B    75

El modelo que se utiliza para analizar estos datos es: \[ y_{ij} = \mu_i + u_{ij}, \quad u_{ij} \rightarrow N(0,\sigma^2), \quad i=A,\cdots,F, \quad j=1,\cdots,m \]

donde m=4. Para analizar si el tamaño de los orificios afecta al porcentaje de radón liberado planteamos el contraste

\[ H_0 : \mu_A = \mu_B = \mu_C = \mu_D = \mu_E = \mu_F \] \[ H_1 : \quad \quad \quad \text{Alguna } \mu \text{ distinta} \quad \quad \quad \quad \]

Este contraste se resuelve utilizando la tabla de Análisis de la Varianza:

# comprobamos que la variable diametro es un factor
is.factor(datos$diametro)

## [1] TRUE

# analisis de la varianza
mod = aov(radon ~ diametro,data = datos)
anova(mod)

## Analysis of Variance Table
## 
## Response: radon
##           Df  Sum Sq Mean Sq F value   Pr(>F)    
## diametro   5 1133.38 226.675  30.852 3.16e-08 ***
## Residuals 18  132.25   7.347                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Como el pvalor < \(\alpha\), se rechaza la hipótesis nula, luego hay diferencias entre porcentajes medios de radón liberado en función del tamaño de los orificios.

2. Proporciona un intervalo de confianza al 95% para el porcentaje promedio de radón liberado cuando el diámetro de los orificios es 1.40

El intervalo de confianza se calcula como:

\[ \mu_E = \bar y_{E \bullet} \pm t_{\alpha/2} \sqrt{\frac{\hat s_R^2 }{m}} \]

datosE = datos$radon[datos$diametro=="E"]
n = nrow(datos) # numero total de datos
m = 4 # numero de datos de cada nivel
K = 6 # numero de niveles
SR2 = 7.347 # varianza residual
alfa = 0.05
ta = qt(1-alfa/2,df = n-K)
IC1 = mean(datosE) - ta*sqrt(SR2/m)
IC2 = mean(datosE) + ta*sqrt(SR2/m)
print(c(IC1,IC2))

## [1] 62.15269 67.84731

3. Contrastar si el porcentaje promedio de radón liberado cuando el diámetro de los orificios es 1.40 es igual al 75% del porcentaje promedio cuando el diámetro de los orificios es 0.71. Utilizar \(\alpha\) = 0.05

El contraste que se pide es: \[ H_0 : \mu_E = 0.75 \mu_C \] \[ H_1 : \mu_E \neq 0.75 \mu_C \]

Para resolver este contraste hay que tener en cuenta que: \[ \bar y_{E \bullet} - 0.75\bar y_{C \bullet} \rightarrow N \left( \mu_E - 0.75\mu_C, \frac{\sigma^2}{m}(1+0.75^2) \right) \]

Por tanto: \[ \frac{ (\bar y_{E \bullet} - 0.75\bar y_{C \bullet}) - (\mu_E - 0.75\mu_C)}{ \sqrt{\frac{\hat s_R^2}{m}(1+0.75^2)} } \rightarrow t_{n-6} \]

Finalmente, si \(H_0\) es cierta: \[ t_0 = \frac{ \bar y_{E \bullet} - 0.75\bar y_{C \bullet} }{ \sqrt{\frac{\hat s_R^2}{m}(1+0.75^2)} } \rightarrow t_{n-6} \]

datosC = datos$radon[datos$diametro=="C"]
t0 = ( mean(datosE) - 0.75*mean(datosC) ) / sqrt(SR2*(1+0.75^2)/m)
t0

## [1] 5.165032

pvalor = 1-pt(t0,df=n-K)
pvalor

## [1] 3.252273e-05

Como el pvalor < \(\alpha\), se rechaza la hipótesis nula.

4. Comprueba que se cumplen las hipótesis del modelo utilizado, explicando con detalle todas las comprobaciones realizadas.

par(mfrow=c(2,2))
plot(mod)

par(mfrow=c(1,1))

Por tanto, se verifican las hipótesis de normalidad y homocedasticidad.

1.2 PEC 22 mayo 2017 (Regresión)

1.2.1 Ejercicio A2

En el archivo salario.txt se incluye el salario y otras características de 52 profesores pertenecientes a una Universidad del medio oeste de los Estados Unidos. Estos datos fueron recogidos en la decada de 1980 para utilizarlos en un proceso legal sobre la discriminación salarial de las mujeres. Todos los profesores incluidos en el archivo son profesores con contrato permanente en la Universidad. El archivo incluye la siguiente información:

Sex: sexo (1:mujeres, 0:hombres)
Rank: rango académico (1:assistant professor, 2:associate professor, 3:full professor)
Year: numero de años en el rango actual
Degree: titulación (1:doctor, 0:master)
YSdeg: Numero de años transcurridos desde que obtuvo su titulación
Salary: salario anual en dolares

Se pide:

Para el siguiente modelo de regresión:

\[ Salary_i = \beta_0 + \beta_1 Sex_i + \beta_2 Year_i + u_i, \quad u_i \rightarrow N(0,\sigma^2) \]

1.1. Estimar los parámetros del modelo (excluir \(\sigma^2\)).

1.2. Intervalo de confianza del 99% para dichos parámetros.

1.3. Indicar qué parámetros son significativos (justificar la respuesta). ¿Existen diferencias salariales entre hombres y mujeres que trabajan en la Universidad de acuerdo al modelo estimado?

1.4. Proporcionar el valor de la Variabilidad Total, Explicada y Residual. Plantear el contraste general de regresión y resolverlo utilizando dichos valores.

Para el siguiente modelo de regresión:

\[ Salary_i = \beta_0 + \beta_1 Sex_i + \beta_2 Year_i + \beta_3 YSdeg_i + \beta_4 Degree_i + \beta_5 RankASO_i + \beta_6 RankFULL_i + u_i, \quad u_i \rightarrow N(0,\sigma^2) \]

2.1. Estimar los parámetros del modelo (excluir \(\sigma^2\)).

2.2. Indicar qué parámetros son significativos (justificar la respuesta). ¿Existen diferencias salariales entre hombres y mujeres que trabajan en la Universidad de acuerdo al modelo estimado?

2.3. Comprobar las hipótesis del modelo (justificar la respuesta).

A partir del modelo estimado en el apartado 2, comprobar si existen diferencias entre el salario de associate professor y full professor, es decir, resolver el contraste

\[ H_0 : \beta_5 = \beta_6; \quad H_1 : \beta_5 \neq \beta_6 \]

Nota: La matriz de varianzas-covarianzas de los parámetros estimados se calcula mediante la función vcov(m), donde m es la variable donde se ha guardado el resultado de la función lm, es decir, m = lm(y ~ x1 + x2 + ···).

1.2.2 Ejercicio A2 - Solución

0. Lectura de datos

# se leen los datos del archivo salario.txt
datos = read.table('datos/salario.txt',header=T)
# del que se muestran las primeras filas
head(datos)

##   Degree Rank Sex Year YSdeg Salary
## 1      1    3   0   25    35  36350
## 2      1    3   0   13    22  35350
## 3      1    3   0   10    23  28200
## 4      1    3   1    7    27  26775
## 5      0    3   0   19    30  33696
## 6      1    3   0   16    21  28516

# y se preparan las variables cualitativas
datos$Sex = factor(datos$Sex, labels=c("hombres","mujeres"))
datos$Rank = factor(datos$Rank, labels = c("asistant","asociate","full"))
datos$Degree = factor(datos$Degree, labels = c("master","doctor"))

1. Para el siguiente modelo de regresión:

\[ Salary_i = \beta_0 + \beta_1 Sex_i + \beta_2 Year_i + u_i, \quad u_i \rightarrow N(0,\sigma^2) \]

1.1. Estimar los parámetros del modelo (excluir \(\sigma^2\)).

m1 = lm(Salary ~ Sex + Year, data = datos)
# coeficientes estimados
coef(m1)

## (Intercept)  Sexmujeres        Year 
##  18065.4054    201.4668    759.0138

1.2. Intervalo de confianza del 99% para dichos parámetros.

confint(m1,level=0.99)

##                  0.5 %    99.5 %
## (Intercept) 14721.4316 21409.379
## Sexmujeres  -3698.2519  4101.186
## Year          441.8783  1076.149

1.3. Indicar qué parámetros son significativos (justificar la respuesta). ¿Existen diferencias salariales entre hombres y mujeres que trabajan en la Universidad de acuerdo al modelo estimado?

Se plantean los siguientes contrastes:

\[ H_0 : \beta_i = 0; \quad H_1 : \beta_i \neq 0,\quad i = 0,1,2 \]

Los parámetros son significativos si son distintos de cero, es decir, se rechaza \(H_0\). Los p-valores de dichos contrastes los encontramos en la siguiente tabla:

summary(m1)

## 
## Call:
## lm(formula = Salary ~ Sex + Year, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -11034.6  -3159.4   -651.8   3184.8  13706.0 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  18065.4     1247.8  14.478  < 2e-16 ***
## Sexmujeres     201.5     1455.1   0.138     0.89    
## Year           759.0      118.3   6.414 5.37e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 4306 on 49 degrees of freedom
## Multiple R-squared:  0.4911, Adjusted R-squared:  0.4704 
## F-statistic: 23.65 on 2 and 49 DF,  p-value: 6.482e-08

Considerando \(\alpha=0.05\), sólo son significativos \(\beta_0\) y \(\beta_2\). Por tanto, no hay diferencias salariales entre hombres y mujeres según este modelo.

1.4. Proporcionar el valor de la Variabilidad Total, Explicada y Residual. Plantear el contraste general de regresión y resolverlo utilizando dichos valores.

# numero de datos
n = nrow(datos)

# variabilidad total
VT = (n-1)*var(datos$Salary)
VT

## [1] 1785729858

# variabilidad no explicada
VNE = (n-1)*var(resid(m1))
VNE

## [1] 908693470

# variabilidad explicada
VE = VT - VNE
VE

## [1] 877036388

Contraste general de regresión:

\[ H_0 : \beta_1 = \beta_2 = 0; \quad H_1 : \beta_1 \neq \beta_2 \]

# numero de regresores
K = 2

# estadistico del contraste
F0 = (VE/K)/(VNE/(n-K-1))
F0

## [1] 23.64647

# pvalor
1-pf(F0,df1=K,df2=n-K-1)

## [1] 6.482468e-08

Como p-valor < \(\alpha\), se rechaza la hipótesis nula (como comprobación, en la última línea de la tabla proporcionada por summary(m1) se puede observar el valor del estadístico del contraste y el pvalor correspondiente).

2. Para el siguiente modelo de regresión:

\[ Salary_i = \beta_0 + \beta_1 Sex_i + \beta_2 Year_i + \beta_3 YSdeg_i + \beta_4 Degree_i + \beta_5 RankASO_i + \beta_6 RankFULL_i + u_i, \quad u_i \rightarrow N(0,\sigma^2) \]

2.1. Estimar los parámetros del modelo (excluir \(\sigma^2\)).

m2 = lm(Salary ~ Sex + Year + YSdeg + Degree + Rank, data = datos)
# coeficientes estimados
B = coef(m2)
B

##  (Intercept)   Sexmujeres         Year        YSdeg Degreedoctor 
##   17134.6610    1166.3731     476.3090    -124.5743   -1388.6133 
## Rankasociate     Rankfull 
##    5292.3608   11118.7640

2.2. Indicar qué parámetros son significativos (justificar la respuesta). ¿Existen diferencias salariales entre hombres y mujeres que trabajan en la Universidad de acuerdo al modelo estimado?

Se plantean los siguientes contrastes:

\[ H_0 : \beta_i = 0; \quad H_1 : \beta_i \neq 0,\quad i = 0,1,\cdots,6 \]

Los parámetros son significativos si son distintos de cero, es decir, se rechaza \(H_0\). Los p-valores de dichos contrastes los encontramos en la siguiente tabla:

summary(m2)

## 
## Call:
## lm(formula = Salary ~ Sex + Year + YSdeg + Degree + Rank, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4045.2 -1094.7  -361.5   813.2  9193.1 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  17134.66    1197.70  14.306  < 2e-16 ***
## Sexmujeres    1166.37     925.57   1.260    0.214    
## Year           476.31      94.91   5.018 8.65e-06 ***
## YSdeg         -124.57      77.49  -1.608    0.115    
## Degreedoctor -1388.61    1018.75  -1.363    0.180    
## Rankasociate  5292.36    1145.40   4.621 3.22e-05 ***
## Rankfull     11118.76    1351.77   8.225 1.62e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2398 on 45 degrees of freedom
## Multiple R-squared:  0.855,  Adjusted R-squared:  0.8357 
## F-statistic: 44.24 on 6 and 45 DF,  p-value: < 2.2e-16

Considerando \(\alpha=0.05\), sólo son significativos \(\beta_0\), \(\beta_2\), \(\beta_5\) y \(\beta_6\). Por tanto, no hay diferencias salariales entre hombres y mujeres según este modelo.

2.3. Comprobar las hipótesis del modelo (justificar la respuesta).

par(mfrow=c(2,2))
plot(m2)

par(mfrow=c(1,1))

3. A partir del modelo estimado en el apartado 2, comprobar si existen diferencias entre el salario de associate professor y full professor, es decir, resolver el contraste

\[ H_0 : \beta_5 = \beta_6; \quad H_1 : \beta_5 \neq \beta_6 \]

El contraste se puede reescribir como:

\[ H_0 : \beta_5 - \beta_6 = 0; \quad H_1 : \beta_5 - \beta_6 \neq 0 \]

Para resolver este contraste sabemos que:

\[ \hat \beta_5 \rightarrow N(\beta_5, \sigma^2 q_{55}), \quad \hat \beta_6 \rightarrow N(\beta_6, \sigma^2 q_{66}) \]

Por tanto,

\[ \hat \beta_5 - \hat \beta_6 \rightarrow N(\beta_5 - \beta_6, \sigma^2 (q_{55} + q_{66} - 2q_{56})) \]

Si la hipótesis nula es cierta

\[ \frac{\hat \beta_5 - \hat \beta_6}{\sqrt{s_{R}^2 (q_{55} + q_{66} - 2q_{56})}} \rightarrow t_{n-K-1} \]

Por otro lado, llamando \(Qe = s_R^2*Q\), se tiene que:

Qe = vcov(m2)
Qe

##              (Intercept) Sexmujeres       Year      YSdeg Degreedoctor
## (Intercept)  1434484.143 -175386.46  -8211.078 -45833.995   -916022.04
## Sexmujeres   -175386.456  856677.75  43881.635 -31844.749   -239806.22
## Year           -8211.078   43881.63   9008.586  -4393.645    -27001.58
## YSdeg         -45833.995  -31844.75  -4393.645   6004.123     51773.09
## Degreedoctor -916022.036 -239806.22 -27001.580  51773.089   1037845.20
## Rankasociate -155469.094  424849.95  29760.599 -50059.605   -205572.43
## Rankfull      426947.845  447403.15  24578.642 -77629.177   -715026.18
##              Rankasociate   Rankfull
## (Intercept)    -155469.09  426947.85
## Sexmujeres      424849.95  447403.15
## Year             29760.60   24578.64
## YSdeg           -50059.61  -77629.18
## Degreedoctor   -205572.43 -715026.18
## Rankasociate   1311936.61 1056595.99
## Rankfull       1056595.99 1827288.64

t0 = (B[[6]] - B[[7]])/(sqrt(Qe[6,6]+Qe[7,7]-2*Qe[6,7]))
t0

## [1] -5.752012

# pvalor
2*pt(t0,df=n-6-1)

## [1] 7.278088e-07

Como p-valor < \(\alpha\), se rechaza la hipótesis nula, es decir, hay diferencias significativas entre el salario de associate professor y full professor.

Podemos comprobar este apartado utilizando los datos del archivo:

# cambiamos la referencia de la variable cualitativa Rank
datos$Rank = relevel(datos$Rank,ref = 'asociate')
m3 = lm(Salary ~ Sex + Year + YSdeg + Degree + Rank, data = datos)
summary(m3)

## 
## Call:
## lm(formula = Salary ~ Sex + Year + YSdeg + Degree + Rank, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -4045.2 -1094.7  -361.5   813.2  9193.1 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  22427.02    1560.60  14.371  < 2e-16 ***
## Sexmujeres    1166.37     925.57   1.260    0.214    
## Year           476.31      94.91   5.018 8.65e-06 ***
## YSdeg         -124.57      77.49  -1.608    0.115    
## Degreedoctor -1388.61    1018.75  -1.363    0.180    
## Rankasistant -5292.36    1145.40  -4.621 3.22e-05 ***
## Rankfull      5826.40    1012.93   5.752 7.28e-07 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2398 on 45 degrees of freedom
## Multiple R-squared:  0.855,  Adjusted R-squared:  0.8357 
## F-statistic: 44.24 on 6 and 45 DF,  p-value: < 2.2e-16

1.3 FINAL 31 mayo 2017

1.3.1 Ejercicio 2 (Regresión)

El archivo burbujas.txt contiene los datos recopilados por varios estudiantes de la Universidad de Waterloo durante la realización de un experimento en el que trataban de determinar la proporción de jabón (pjabon), glicerina (pglicer) y agua (pagua) que da lugar a una mezcla óptima para producir burbujas de jabón. Establecieron 12 mezclas (de 100 ml en todos los casos) con proporciones diferentes de los tres ingredientes y realizaron los experimentos utilizando dos marcas de jabón (Joy e Ivory) y dos tipos de agua (de botella y de grifo). Los experimentos se llevaron a cabo en el orden en el que iban preparando las mezclas (exper indica el número de experimento). Con cada mezcla repitieron 5 veces el experimento y anotaron el numero de burbujas producidas (nburb1, nburb2, …, nburb5; nburb es la suma de los 5 repeticiones).

Para el modelo de regresión simple: variable respuesta = log(nburb), regresor = pjabon

1.1. Escribir la ecuación del modelo y estimar los parámetros

1.2. Calcular un intervalo de confianza del 95% para todos los parámetros estimados.

1.3. Plantear y resolver el contraste individual y el general de regresión. ¿Qué relación hay entre dichos contrastes? ¿Es influyente la proporción de jabón en el número de burbujas producido?

1.4. ¿Es necesario utilizar logaritmos en la variable respuesta?¿Por qué?

1.5. Utilizando los modelos de regresión simple correspondientes, justificar si la proporción de agua y la proporción de glicerina son influyentes en el número de burbujas producido.

1.6. ¿Por qué no es buena idea utilizar el siguiente modelo de regresión: variable respuesta = log(nburb); regresores = pjabon, pagua, pglicer?
Para estudiar la influencia del tipo de jabón y del tipo de agua, estimar el siguiente modelo de regresión: variable respuesta: log(nburb); regresores: pjabon, tjabon, tagua.

2.1. Escribir la ecuación del modelo y los valores de los parámetros estimados.

2.2. Calcular un intervalo de confianza del 95% para todos los parámetros estimados.

2.3. Plantear y resolver los contrastes individuales y contraste general de regresión. ¿Qué parámetros son influyentes en el número de burbujas producido?

2.4. Calcular la variabilidad total, variabilidad explicada y variabilidad no explicada.

2.5. ¿Se cumplen las hipótesis del modelo?
El modelo final que se ha estimado con los datos es:

\[ log(nburb) = 2.288 + 14.052*pjabon - 24.79*pjabon^2 - 0.5428*tjabon - 3.282*pjabon*tjabon \]

donde la varianza residual es igual a 0,1866 y

\[ (X^T X)^{-1} = \begin{bmatrix} 0.2863 & -2.5353 & 4.9025 & -0.165 9 & 0.6793 \\ -2.5353 & 32.3111 & -75.5408 & 0.6793 & -3.7140 \\ 4.9025 & -75.5408 & 199.5456 & 0.0000 & 0.0000 \\ -0.1659 & 0.6793 & 0.0000 & 0.3318 & -1.3587 \\ 0.6793 & -3.7140 & 0.0000 & -1.3587 & 7.4281 \end{bmatrix} \]

Utilizando esta información:

3.1. Realizar los contrastes individuales e interpretar el resultado.

3.2. Calcular el coeficiente de determinación y compararlo con el del modelo del segundo apartado.

1.3.2 Ejercicio 2 - Solución

0. Lectura de datos

# se leen los datos del archivo burbujas.txt
datos = read.table('datos/burbujas.txt',header=T)
# del que se muestran las primeras filas
head(datos)

##   exper pagua pjabon pglicer tjabon   tagua nburb1 nburb2 nburb3 nburb4
## 1     2  0.60   0.35    0.05    joy botella     19     25     25     25
## 2     3  0.60   0.25    0.15    joy botella     13     10     14     12
## 3    20  0.65   0.35    0.00    joy botella      9      9      7      6
## 4    32  0.65   0.25    0.10    joy botella     16      7     12     13
## 5     1  0.75   0.25    0.05    joy botella     11     13     15      9
## 6    15  0.70   0.15    0.15    joy botella      7     11     11     13
##   nburb5 nburb
## 1     25   119
## 2     14    63
## 3      8    39
## 4     12    60
## 5     16    64
## 6     12    54

1. Para el modelo de regresión simple: variable respuesta = log(nburb), regresor = pjabon

1.1. Escribir la ecuación del modelo y estimar los parámetros

Ecuación del modelo

\[ log(nburb_i) = \beta_0 + \beta_1 pjabon_i + u_i, \ u_i \rightarrow N(0,\sigma^2) \]

Estimación de los parámetros

m11 = lm(log(nburb) ~ pjabon, data = datos)
summary(m11)

## 
## Call:
## lm(formula = log(nburb) ~ pjabon, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.06641 -0.39592 -0.02506  0.71849  1.17301 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   2.6259     0.2257   11.63 2.66e-15 ***
## pjabon        2.9999     1.0677    2.81  0.00726 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7835 on 46 degrees of freedom
## Multiple R-squared:  0.1465, Adjusted R-squared:  0.1279 
## F-statistic: 7.894 on 1 and 46 DF,  p-value: 0.00726

\[ \Rightarrow \hat \beta_0 = 2.6259, \ \hat \beta_1 = 2.9999, \ \hat s_R = 0.7835 \]

1.2. Calcular un intervalo de confianza del 95% para todos los parámetros estimados.

confint(m11,level=0.95)

##                 2.5 %   97.5 %
## (Intercept) 2.1716154 3.080167
## pjabon      0.8506682 5.149073

Para la varianza: \[ \frac{(n-2)\hat s_R^2}{\chi_b^2} \leq \sigma^2 \leq \frac{(n-2)\hat s_R^2}{\chi_a^2} \]

donde

Chi2_a = qchisq(0.025,df = 48-2)
Chi2_b = qchisq(0.975,df = 48-2)
# Intervalo de confianza
c(46*0.7835^2/Chi2_b, 46*0.7835^2/Chi2_a)

## [1] 0.4238906 0.9683838

1.3. Plantear y resolver el contraste individual y el general de regresión. ¿Qué relación hay entre dichos contrastes? ¿Es influyente la proporción de jabón en el número de burbujas producido?

Contrastes individuales

\[ H_0 : \beta_0 = 0; \quad H_1 : \beta_0 \neq 0 \]

pvalor = 2.66e-15, se rechaza H0.

\[ H_0 : \beta_1 = 0; \quad H_1 : \beta_1 \neq 0 \]

pvalor = 0.00726, se rechaza H0.

Contraste general

\[ H_0 : \beta_1 = 0; \quad H_1 : \beta_1 \neq 0 \]

pvalor = 0.00726, se rechaza H0.

El contraste individual para \(\beta_1\) se resuelve con la distribución t-student, siendo el estadístico del contraste

\[ t_0 = \hat \beta_1 / \sqrt(\hat s_R^2/n) = 2.81\]

El contraste general se resuelve con la ditribución F, siendo el estadístico del contraste

\[ F_0 = VE/\hat s_R^2 = 7.894 \]

De las propiedades de las distribuciones t-student y F se puede demostrar que 2.81² = 7.894.

Por último, como se rechaza H0 para los contrastes de \(\beta_1\), tenemos que \(\beta 1 \neq 0\), luego la proporción de jabón influye en el logaritmo del número de burbujas.

1.4. ¿Es necesario utilizar logaritmos en la variable respuesta?¿Por qué?

Si no utilizamos logaritmo, el modelo estimado sería

m12 = lm(nburb ~ pjabon, data = datos)
par(mfrow=c(2,2))
plot(m12)

En el gráfico Fitted values vs Residuals se observa que no se cumple la hipótesis de homocedasticidad. Sin embargo, en el modelo con logaritmo si se cumple:

par(mfrow=c(2,2))
plot(m11)

1.5 Utilizando los modelos de regresión simple correspondientes, justificar si la proporción de agua y la proporción de glicerina son influyentes en el número de burbujas producido.

m13 = lm(log(nburb) ~ pagua, data = datos)
summary(m13)

## 
## Call:
## lm(formula = log(nburb) ~ pagua, data = datos)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.85031 -0.52979  0.00535  0.63460  1.26236 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   5.2902     0.7968   6.640 3.17e-08 ***
## pagua        -2.8161     1.0497  -2.683   0.0101 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7886 on 46 degrees of freedom
## Multiple R-squared:  0.1353, Adjusted R-squared:  0.1165 
## F-statistic: 7.197 on 1 and 46 DF,  p-value: 0.01011

El pvalor para el contraste de \(\beta_1\) es menor que \(\alpha\), luego la proporción de agua si influye.

m14 = lm(log(nburb) ~ pglicer, data = datos)
summary(m14)

## 
## Call:
## lm(formula = log(nburb) ~ pglicer, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.0806 -0.4792 -0.1568  0.7989  1.6137 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   3.1425     0.1962  16.015   <2e-16 ***
## pglicer       0.4588     2.1916   0.209    0.835    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.8477 on 46 degrees of freedom
## Multiple R-squared:  0.0009516,  Adjusted R-squared:  -0.02077 
## F-statistic: 0.04382 on 1 and 46 DF,  p-value: 0.8351

El pvalor para el contraste de \(\beta_1\) es mayor que \(\alpha\), luego la proporción de agua no influye.

1.6. ¿Por qué no es buena idea utilizar el siguiente modelo de regresión: variable respuesta = log(nburb); regresores = pjabon, pagua, pglicer?

Porque las tres proporciones suman 1, luego si utilizamos las tres tendríamos multicolinealidad.

2. Para estudiar la influencia del tipo de jabón y del tipo de agua, estimar el siguiente modelo de regresión: variable respuesta: log(nburb); regresores: pjabon, tjabon, tagua.

2.1. Escribir la ecuación del modelo y los valores de los parámetros estimados.

Ecuación del modelo

\[ log(nburb_i) = \beta_0 + \beta_1 pjabon_i + \beta_2 Zjabon_i + \beta_3 Zagua_i + u_i, \ u_i \rightarrow N(0,\sigma^2) \]

donde Zjabon = 1 si tjabon = joy y Zjabon = 0 si tjabon = ivory; Zagua = 1 si tagua = grifo y Zagua = 0 si tagua = botella.

Estimación de los parámetros

m2 = lm(log(nburb) ~ pjabon + tjabon + tagua, data = datos)
summary(m2)

## 
## Call:
## lm(formula = log(nburb) ~ pjabon + tjabon + tagua, data = datos)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.4883 -0.2551  0.1493  0.3514  0.8767 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  2.06074    0.18857  10.928 4.03e-14 ***
## pjabon       2.99987    0.72789   4.121 0.000164 ***
## tjabonjoy    1.14322    0.15419   7.414 2.84e-09 ***
## taguagrifo  -0.01291    0.15419  -0.084 0.933637    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.5341 on 44 degrees of freedom
## Multiple R-squared:  0.6206, Adjusted R-squared:  0.5947 
## F-statistic: 23.99 on 3 and 44 DF,  p-value: 2.366e-09

\[ \Rightarrow \hat \beta_0 = 2.06074, \ \hat \beta_1 = 2.99987, \beta_2 = 1.14322, \beta_3 = -0.01291, \ \hat s_R = 0.5341 \]

2.2. Calcular un intervalo de confianza del 95% para todos los parámetros estimados.

confint(m2,level=0.95)

##                  2.5 %   97.5 %
## (Intercept)  1.6806983 2.440779
## pjabon       1.5328964 4.466845
## tjabonjoy    0.8324612 1.453976
## taguagrifo  -0.3236706 0.297844

Para la varianza: \[ \frac{(n-2)\hat s_R^2}{\chi_b^2} \leq \sigma^2 \leq \frac{(n-2)\hat s_R^2}{\chi_a^2} \]

donde

Chi2_a = qchisq(0.025,df = 44)
Chi2_b = qchisq(0.975,df = 44)
# Intervalo de confianza
c(44*0.5341^2/Chi2_b, 44*0.5341^2/Chi2_a)

## [1] 0.1955028 0.4551863

2.3. Plantear y resolver los contrastes individuales y contraste general de regresión. ¿Qué parámetros son influyentes en el número de burbujas producido?

Contraste general

\[ H_0 : \beta_1 = \beta_2 = \beta_3 = 0; \quad H_1 : Alguno \neq 0 \]

pvalor = 2.366e-09, se rechaza H0.

Contrastes individuales

\[ H_0 : \beta_i = 0; \quad H_1 : \beta_i \neq 0, \quad i = 0,1,2,3 \]

i=0, pvalor = 4.03e-14, se rechaza H0.
i=1, pvalor = 0.000164, se rechaza H0. La proporción de habón es influyente.
i=2, pvalor = 2.84e-09, se rechaza H0. El tipo de jabón es influyente.
i=3, pvalor = 0.933637, se acepta H0. El tipo de agua no es influyente.

2.4. Calcular la variabilidad total, variabilidad explicada y variabilidad no explicada.

VT = (48-1)*var(log(datos$nburb))
VT

## [1] 33.08499

VNE = 44*0.5341^2
VNE

## [1] 12.55156

VE = VT - VNE
VE

## [1] 20.53342

2.5. ¿Se cumplen las hipótesis del modelo?

par(mfrow=c(2,2))
plot(m2)

Se cumplen homocedasticidad y normalidad. No se cumple linealidad.

3. El modelo final que se ha estimado con los datos es:

\[ log(nburb) = 2.288 + 14.052*pjabon - 24.79*pjabon^2 - 0.5428*tjabon - 3.282*pjabon*tjabon \]

donde la varianza residual es igual a 0,1866 y

Utilizando esta información:

3.1. Realizar los contrastes individuales e interpretar el resultado.

Contrastes

\[ H_0 : \beta_i = 0; \quad H_1 : \beta_i \neq 0, \quad i = 0,1,2,3,4 \]

El estadístico de los contrastes es:

\[ t_i = \hat \beta_i / (\sqrt{\hat s_R^2 q_{ii}}), \ i= 0,1,2,3,4; \text{ Si H0 es cierta } t_i \rightarrow t_{43}\]

#*************************************************************
t0 = 2.288/sqrt(0.1866*0.2863)
t0

## [1] 9.898959

# pvalor
2*(1-pt(t0,df=43))

## [1] 1.173728e-12

Se rechaza H0, luego \(\beta_0\) es distinto de cero.

#*************************************************************
t1 = 14.052/sqrt(0.1866*32.3111)
t1

## [1] 5.722772

# pvalor
2*(1-pt(t1,df=43))

## [1] 9.240692e-07

Se rechaza H0, luego \(\beta_1\) es distinto de cero.

#*************************************************************
t2 = 24.79/sqrt(0.1866*199.5456)
t2

## [1] 4.062559

# pvalor
2*(1-pt(t2,df=43))

## [1] 0.0002020994

Se rechaza H0, luego \(\beta_2\) es distinto de cero.

#*************************************************************
t3 = 0.5428/sqrt(0.1866*0.3318)
t3

## [1] 2.181453

# pvalor
2*(1-pt(t3,df=43))

## [1] 0.03466404

Se rechaza H0, luego \(\beta_3\) es distinto de cero.

#*************************************************************
t4 = 3.282/sqrt(0.1866*7.4281)
t4

## [1] 2.787686

# pvalor
2*(1-pt(t4,df=43))

## [1] 0.00787307

Se rechaza H0, luego \(\beta_4\) es distinto de cero.

3.2. Calcular el coeficiente de determinación y compararlo con el del modelo del segundo apartado.

El coeficiente de determinación corregido es igual a:

\[ \bar R^2 = 1 - \frac{\hat s_R^2}{\hat s_y^2} = \]

1 - 0.1866/var(log(datos$nburb))

## [1] 0.7349191

El coeficiente de determinación corregido del modelo del segundo apartado es igual a 0.5947. Por tanto, el nuevo modelo es mejor modelo desde el punto de vista del coeficiente de determinación.