实操冲刺

答题卷模板 + 透视表 + Python 基础

整理制作 @天青色等烟雨
2.2先背
3.2必考
2.1清洗
Python看代码

不要按 PDF 顺序背

先 2.2 和 3.2,再 2.1,再 3.1 和文字题

50 分钟 2.2 模型开发与测试

读数据、拆 X/y、切分、建模、fit、保存、predict、score/report、优化。

40 分钟 3.2 ONNX 图像识别

InferenceSession、Image.open、预处理、get_inputs、run、argmax/softmax。

40 分钟 2.1 数据清洗标注

缺失值、重复值、类型转换、标准化/归一化、IQR、训练测试切分、保存。

50 分钟 1.1 / 3.1 / 4.x

1.1 背 pandas 基础;报告题背现状、问题、优化方向、解决方案、效果。

背诵口令

Pandas:读 看 查 清 转 分 统 存 建模:读 拆 切 建 训 存 预 评 改 ONNX:载模 读图 预处理 拿输入名 运行 取最大 输出 文档:现状 问题 优化 方案 效果

3.1 五道 Excel 数据透视表题

只记辅助列和字段拖拽,不背长公式

文字题别硬背长句,背采分结构

答题卷文字模板 + 考前速记纸

只留真要背的代码点和函数链

按题号搜宝典速记

看懂代码,比死背模板更稳

Python 基础语言速懂

= 赋值

把右边算出来的结果,装进左边这个名字。

. 方法

让某个对象做一件事,比如表格读头几行。

[] 取值

从列表、字典或表格里取某个位置、列名或条件。

: 代码块

if、for、def 后面缩进的内容,都归它管。

1. 变量和赋值

变量就是“起名字”。考试看到 datamodelscore,先问:这个名字里装的是什么。

score = 87
name = "张三"
passed = score >= 60

这里 score 装 87,name 装文字,passed 装判断结果 True/False。

2. 列表、字典和索引

列表像一排格子,字典像“标签 -> 内容”的对照表。

labels = ["猫", "狗", "车"]
labels[0]
config = {"test_size": 0.2, "random_state": 42}
config["test_size"]

[0] 是第一项;["test_size"] 是按名字取值。

3. 条件判断

if 就是“如果满足条件,就执行下面缩进的代码”。

if score >= 60:
    result = "合格"
else:
    result = "不合格"

冒号后面必须缩进。缩进同一层,表示同一组动作。

4. 函数、库和方法

函数像一个工具;import 是把工具箱拿进来。

import pandas as pd

data = pd.read_csv("train.csv")
data.head()

pd.read_csv() 是调用 pandas 的读表工具;data.head() 是让 data 显示前几行。

5. Pandas 读表三件套

实操里看到表格,先读、看、查。

df = pd.read_csv("data.csv")
df.head()
df.info()
df.describe()

head 看样子,info 看列名和空值,describe 看数值统计。

6. 清洗:空值、重复、类型

2.1 常考:哪里脏,怎么清,清完保存。

df.isnull().sum()
df = df.dropna()
df = df.drop_duplicates()
df["age"] = pd.to_numeric(df["age"], errors="coerce")

dropna 删空值,drop_duplicates 删重复,to_numeric 把文字数字转成真数字。

7. 筛选和分组统计

筛选是找符合条件的行,分组是按类别汇总。

high = df[df["score"] >= 80]
df["category"].value_counts()
df.groupby("city")["score"].mean()

透视表的底层逻辑也是“按某列分组,再计数、求平均或求和”。

8. 建模代码主线

2.2 看到机器学习代码,按“拆、切、训、预、评”读。

X = df.drop("label", axis=1)
y = df["label"]
X_train, X_test, y_train, y_test = train_test_split(X, y)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

X 是特征,y 是答案;fit 训练,predict 预测,后面再算准确率或误差。

9. ONNX 图像识别怎么读

3.2 不用害怕,顺序就是载模型、读图片、转数组、运行、取最大。

session = ort.InferenceSession("model.onnx")
image = Image.open("test.png").convert("RGB")
input_name = session.get_inputs()[0].name
outputs = session.run(None, {input_name: image_array})
pred = np.argmax(outputs[0])

argmax 找分数最高的类别,通常就是最终识别结果。

10. 考场填空先看左右

不会背完整代码时,看空格前后最管用。

df = pd.____("data.csv")
model.____(X_train, y_train)
y_pred = model.____(X_test)

文件是 csv,多半填 read_csv;训练填 fit;预测填 predict