Si plusieurs variables indépendantes sont prises en compte dans une régression multivariable, certaines d`entre elles peuvent s`avérer interdépendantes. Une variable indépendante qui se trouve avoir un effet fort dans un modèle de régression univariable peut ne pas s`avérer avoir un effet appréciable dans une régression multivariable avec une sélection de variable. Cela se produira si cette variable particulière dépend si fortement des autres variables indépendantes qu`elle n`apporte aucune contribution supplémentaire pour expliquer la variable dépendante. Pour des raisons connexes, lorsque les variables indépendantes sont mutuellement dépendantes, différentes variables indépendantes peuvent finir par être incluses dans le modèle en fonction de la technique particulière utilisée pour la sélection des variables. En termes formels, l`hypothèse nulle, qui est l`hypothèse que b = 0 (aucune relation entre les variables, le coefficient de régression est donc 0), peut être testée avec un t-test. On peut également calculer l`intervalle de confiance de 95% pour le coefficient de régression (4). La spécification d`un modèle de régression est un processus itératif. Les sections d`interprétation et de vérification de l`hypothèse de ce didacticiel de régression vous montrent comment confirmer que vous avez correctement spécifié le modèle et comment ajuster votre modèle en fonction des résultats. L`évaluation d`un modèle de régression nécessite la performance de la sélection avant et arrière des variables. Si ces deux procédures entraînent la sélection du même ensemble de variables, le modèle peut être considéré comme robuste. Si ce n`est pas le cas, un statisticien devrait être consulté pour obtenir de plus amples conseils. où, k est le nombre de paramètres du modèle et le BIC est défini comme: il y a souvent des variables qui devraient être incluses dans le modèle dans tous les cas — par exemple, l`effet d`une certaine forme de traitement, ou des variables indépendantes qui ont déjà été trouvées pertinentes dans p études.

Une façon de prendre en compte de telles variables est leur inclusion de bloc dans le modèle. De cette façon, on peut combiner l`inclusion forcée de certaines variables avec l`inclusion sélective d`autres variables indépendantes qui s`avérer pertinentes à l`explication de la variation dans la variable dépendante. La régression linéaire trouve la ligne droite, appelée la ligne de régression des moindres carrés ou LSRL, qui représente le mieux les observations dans un ensemble de données bivariée. Supposons que Y est une variable dépendante et que X est une variable indépendante. La ligne de régression démographique est: Comment faire? Fractionner vos données en «k» parties d`échantillon aléatoire mutuellement exclusives. En gardant chaque portion comme données de test, nous construisons le modèle sur les données restantes (portion k-1) et calculons l`erreur quadratique moyenne des prédictions. Ceci est fait pour chacune des portions d`échantillon aléatoire`k`. Enfin, la moyenne de ces erreurs quadratiques moyennes (pour les portions`k`) est calculée. Nous pouvons utiliser cette métrique pour comparer différents modèles linéaires. Par exemple, si l`on étudie la relation entre le sexe et le poids, on obtient la ligne de régression Y = 47,64 + 14,93 × X, où X = sexe (1 = femelle, 2 = mâle). Le coefficient de régression de 14,93 reflète le fait que les hommes sont en moyenne 14,93 kg plus lourds que les femmes.

Les valeurs manquantes sont un problème fréquent dans les données médicales. Chaque fois que la valeur d`une variable dépendante ou indépendante est manquante, cette observation particulière doit être exclue de l`analyse de régression. Si de nombreuses valeurs manquent dans le jeu de données, la taille de l`échantillon effectif sera sensiblement diminuée, et l`échantillon peut alors devenir trop petit pour produire des résultats significatifs, malgré une planification anticipée apparemment adéquate. Si cela se produit, les relations réelles peuvent être négligées, et les résultats de l`étude peuvent ne pas être généralement applicables. En outre, des effets de sélection peuvent être attendus dans de tels cas.