arr = np.array([
[-1.5,-1.439,-1.383],
[-0.38,-0.748,-0.84],
[-0.507,0.2,-0.274],
[-0.098,-0.38,-0.013],
[0.0912,0.76,0.9],
[0.581,1.6,1.5]
])
data = pd.DataFrame(arr, columns=["x1", "x2", "y"])
data
hasilnya adalah sebagai berikut
bagaimana jika multiple variable 'Age'
arr = np.array([
[6,25,108439],
[19,36, 102179],
[14,22, 45323],
[10,25,47690],
[11,40,84974]
])
data = pd.DataFrame(arr, columns=["Experience","Age", "Salary"])
data
menentukan variabel independen dan dependensi
X = data['Experience'] # Independent variable
y = data['Salary'] # Dependent variable
print("X:")
print(X)
print("y:")
print(y)
menentukan multi variabel independen dan dependensi
X = data[['Experience','Age']] # Independent variable
y = data['Salary'] # Dependent variable
print("X:")
print(X)
print("y:")
print(y)
membagi kumpulan data menjadi set pelatihan dan pengujian sehingga kami dapat mengevaluasi seberapa baik kinerja model pada data baru
dengan 80 % data training dan 20% data training
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
membuat kesimpulan statistik
X = df[['Experience']] # Independent variable
y = df['Salary'] # Dependent variable
setelah ini belajar conver data categorical menjadi numerical