Regresión Lineal: Guía Completa del Modelo Estadístico

La regresión lineal es el modelo estadístico más utilizado del mundo. Su objetivo es simple pero poderoso: encontrar la recta que mejor describe la relación entre dos o más variables. Desde la economía hasta la medicina, pasando por el marketing y la ingeniería, la regresión lineal es la herramienta más básica y, a menudo, más efectiva del análisis de datos.

La idea fundamental

Dados un conjunto de puntos (x, y), buscamos la recta y = a + bx que pase lo más «cerca» posible de todos ellos. El criterio para medir «cercanía» es minimizar la suma de los cuadrados de las distancias verticales entre los puntos y la recta. Este método se llama mínimos cuadrados ordinarios (MCO o OLS, por sus siglas en inglés).

Los coeficientes

El coeficiente b (pendiente) nos dice cuánto cambia y por cada unidad de cambio en x. El coeficiente a (ordenada en el origen) nos dice el valor de y cuando x = 0.

Las fórmulas son:

b = Σ(xᵢ – x̄)(yᵢ – ȳ) / Σ(xᵢ – x̄)²

a = ȳ – b·x̄

El coeficiente de determinación R²

El R² mide qué proporción de la variabilidad de y es explicada por x. Varía entre 0 y 1: un R² de 0,85 significa que el modelo explica el 85% de la variabilidad observada. El 15% restante se debe a factores no incluidos en el modelo o al azar.

Un R² alto no implica causalidad. El consumo de helados y los ahogamientos están altamente correlacionados, pero la causa real es el calor del verano.

Regresión múltiple

La regresión lineal se extiende fácilmente a múltiples variables: y = a + b₁x₁ + b₂x₂ + … + bₖxₖ. Esto permite controlar el efecto de variables confusoras y modelar relaciones más complejas.

Por ejemplo, para predecir el precio de una vivienda, podemos usar como variables predictoras la superficie, el número de habitaciones, la distancia al centro y la antigüedad del edificio.

Supuestos importantes

Para que las estimaciones de MCO sean óptimas, se requieren ciertos supuestos: linealidad de la relación, independencia de los errores, homocedasticidad (varianza constante de los errores) y normalidad de los errores. Cuando estos supuestos se violan, existen métodos alternativos.

Más allá de la regresión lineal

La regresión logística extiende el concepto a variables binarias (sí/no). La regresión polinómica permite modelar relaciones curvilíneas. Y técnicas como ridge y lasso añaden regularización para evitar el sobreajuste en modelos con muchas variables.

Aplicaciones prácticas

Economía: Modelos macroeconómicos, predicción del PIB, análisis de elasticidad de precios.

Medicina: Estudios epidemiológicos, dosis-respuesta, factores de riesgo.

Marketing: Modelos de atribución, predicción de ventas, análisis de campañas.

Deportes: Modelos de rendimiento, predicción de resultados, análisis de jugadores. Los modelos estadísticos que predicen resultados de fútbol para apuestas deportivas son, en esencia, regresiones sofisticadas.

Modelos en acción: La regresión es la base de los modelos predictivos en apuestas deportivas. Descúbrelo en nuestro análisis estadístico de casas de apuestas y nuestro ranking matemático de casinos online.

Regresión Lineal: El Modelo Estadístico Más Utilizado del Mundo