Sabtu, 12 April 2025

membuat dataframe dari array

arr = np.array([
[-1.5,-1.439,-1.383],
[-0.38,-0.748,-0.84],
[-0.507,0.2,-0.274],
[-0.098,-0.38,-0.013],
[0.0912,0.76,0.9],
[0.581,1.6,1.5]
])

data = pd.DataFrame(arr, columns=["x1", "x2", "y"])
data
hasilnya adalah sebagai berikut
dataframe array
bagaimana jika multiple variable 'Age'
arr = np.array([

    [6,25,108439],
    [19,36, 102179],
    [14,22, 45323],
    [10,25,47690],
    [11,40,84974]
])


data = pd.DataFrame(arr, columns=["Experience","Age", "Salary"])
data
multiple feature variable dataframe
menentukan variabel independen dan dependensi
X = data['Experience']  # Independent variable
y = data['Salary']  # Dependent variable

print("X:")
print(X)
print("y:")
print(y)


dataframe
menentukan multi variabel independen dan dependensi
X = data[['Experience','Age']]  # Independent variable
y = data['Salary']  # Dependent variable

print("X:")
print(X)
print("y:")
print(y)
membagi kumpulan data menjadi set pelatihan dan pengujian sehingga kami dapat mengevaluasi seberapa baik kinerja model pada data baru dengan 80 % data training dan 20% data training
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
membuat kesimpulan statistik
X = df[['Experience']]  # Independent variable
y = df['Salary']  # Dependent variable
setelah ini belajar conver data categorical menjadi numerical