La regresión lineal es el modelo estadístico más utilizado del mundo. Su objetivo es simple pero poderoso: encontrar la recta que mejor describe la relación entre dos o más variables. Desde la economía hasta la medicina, pasando por el marketing y la ingeniería, la regresión lineal es la herramienta más básica y, a menudo, más efectiva del análisis de datos.
La idea fundamental
Dados un conjunto de puntos (x, y), buscamos la recta y = a + bx que pase lo más «cerca» posible de todos ellos. El criterio para medir «cercanía» es minimizar la suma de los cuadrados de las distancias verticales entre los puntos y la recta. Este método se llama mínimos cuadrados ordinarios (MCO o OLS, por sus siglas en inglés).
Los coeficientes
El coeficiente b (pendiente) nos dice cuánto cambia y por cada unidad de cambio en x. El coeficiente a (ordenada en el origen) nos dice el valor de y cuando x = 0.
Las fórmulas son:
b = Σ(xᵢ – x̄)(yᵢ – ȳ) / Σ(xᵢ – x̄)²
a = ȳ – b·x̄
El coeficiente de determinación R²
El R² mide qué proporción de la variabilidad de y es explicada por x. Varía entre 0 y 1: un R² de 0,85 significa que el modelo explica el 85% de la variabilidad observada. El 15% restante se debe a factores no incluidos en el modelo o al azar.
Un R² alto no implica causalidad. El consumo de helados y los ahogamientos están altamente correlacionados, pero la causa real es el calor del verano.
Regresión múltiple
La regresión lineal se extiende fácilmente a múltiples variables: y = a + b₁x₁ + b₂x₂ + … + bₖxₖ. Esto permite controlar el efecto de variables confusoras y modelar relaciones más complejas.
Por ejemplo, para predecir el precio de una vivienda, podemos usar como variables predictoras la superficie, el número de habitaciones, la distancia al centro y la antigüedad del edificio.
Supuestos importantes
Para que las estimaciones de MCO sean óptimas, se requieren ciertos supuestos: linealidad de la relación, independencia de los errores, homocedasticidad (varianza constante de los errores) y normalidad de los errores. Cuando estos supuestos se violan, existen métodos alternativos.
Más allá de la regresión lineal
La regresión logística extiende el concepto a variables binarias (sí/no). La regresión polinómica permite modelar relaciones curvilíneas. Y técnicas como ridge y lasso añaden regularización para evitar el sobreajuste en modelos con muchas variables.
Aplicaciones prácticas
Economía: Modelos macroeconómicos, predicción del PIB, análisis de elasticidad de precios.
Medicina: Estudios epidemiológicos, dosis-respuesta, factores de riesgo.
Marketing: Modelos de atribución, predicción de ventas, análisis de campañas.
Deportes: Modelos de rendimiento, predicción de resultados, análisis de jugadores. Los modelos estadísticos que predicen resultados de fútbol para apuestas deportivas son, en esencia, regresiones sofisticadas.
