读数据、拆 X/y、切分、建模、fit、保存、predict、score/report、优化。
不要按 PDF 顺序背
先 2.2 和 3.2,再 2.1,再 3.1 和文字题
InferenceSession、Image.open、预处理、get_inputs、run、argmax/softmax。
缺失值、重复值、类型转换、标准化/归一化、IQR、训练测试切分、保存。
1.1 背 pandas 基础;报告题背现状、问题、优化方向、解决方案、效果。
背诵口令
3.1 五道 Excel 数据透视表题
只记辅助列和字段拖拽,不背长公式
文字题别硬背长句,背采分结构
答题卷文字模板 + 考前速记纸
只留真要背的代码点和函数链
按题号搜宝典速记
看懂代码,比死背模板更稳
Python 基础语言速懂
把右边算出来的结果,装进左边这个名字。
让某个对象做一件事,比如表格读头几行。
从列表、字典或表格里取某个位置、列名或条件。
if、for、def 后面缩进的内容,都归它管。
1. 变量和赋值
变量就是“起名字”。考试看到 data、model、score,先问:这个名字里装的是什么。
score = 87
name = "张三"
passed = score >= 60
这里 score 装 87,name 装文字,passed 装判断结果 True/False。
2. 列表、字典和索引
列表像一排格子,字典像“标签 -> 内容”的对照表。
labels = ["猫", "狗", "车"]
labels[0]
config = {"test_size": 0.2, "random_state": 42}
config["test_size"]
[0] 是第一项;["test_size"] 是按名字取值。
3. 条件判断
if 就是“如果满足条件,就执行下面缩进的代码”。
if score >= 60:
result = "合格"
else:
result = "不合格"
冒号后面必须缩进。缩进同一层,表示同一组动作。
4. 函数、库和方法
函数像一个工具;import 是把工具箱拿进来。
import pandas as pd
data = pd.read_csv("train.csv")
data.head()
pd.read_csv() 是调用 pandas 的读表工具;data.head() 是让 data 显示前几行。
5. Pandas 读表三件套
实操里看到表格,先读、看、查。
df = pd.read_csv("data.csv")
df.head()
df.info()
df.describe()
head 看样子,info 看列名和空值,describe 看数值统计。
6. 清洗:空值、重复、类型
2.1 常考:哪里脏,怎么清,清完保存。
df.isnull().sum()
df = df.dropna()
df = df.drop_duplicates()
df["age"] = pd.to_numeric(df["age"], errors="coerce")
dropna 删空值,drop_duplicates 删重复,to_numeric 把文字数字转成真数字。
7. 筛选和分组统计
筛选是找符合条件的行,分组是按类别汇总。
high = df[df["score"] >= 80]
df["category"].value_counts()
df.groupby("city")["score"].mean()
透视表的底层逻辑也是“按某列分组,再计数、求平均或求和”。
8. 建模代码主线
2.2 看到机器学习代码,按“拆、切、训、预、评”读。
X = df.drop("label", axis=1)
y = df["label"]
X_train, X_test, y_train, y_test = train_test_split(X, y)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
X 是特征,y 是答案;fit 训练,predict 预测,后面再算准确率或误差。
9. ONNX 图像识别怎么读
3.2 不用害怕,顺序就是载模型、读图片、转数组、运行、取最大。
session = ort.InferenceSession("model.onnx")
image = Image.open("test.png").convert("RGB")
input_name = session.get_inputs()[0].name
outputs = session.run(None, {input_name: image_array})
pred = np.argmax(outputs[0])
argmax 找分数最高的类别,通常就是最终识别结果。
10. 考场填空先看左右
不会背完整代码时,看空格前后最管用。
df = pd.____("data.csv")
model.____(X_train, y_train)
y_pred = model.____(X_test)
文件是 csv,多半填 read_csv;训练填 fit;预测填 predict。