AI
FAQ
访问主站
↗
AI/ML 常见问题知识库
使用 GitHub 登录
深色
中文
EN
⌘K
内容+分类
全文
分类筛选
主类
基础概念
3
模型结构
77
后训练与对齐
10
强化学习
5
检索系统
3
推理与部署
20
主题
注意力
51
Transformer
50
Embedding
25
KV Cache
25
归一化
17
残差连接
11
RAG
9
RoPE
8
量化
6
GRPO
5
PPO
5
RLHF
3
LoRA
3
SFT
2
DPO
2
奖励模型
2
蒸馏
2
比较
★
我的关注
全部展开
全部折叠
精简
详细
排序:
默认
时间
难度
共 96 条,第 1/10 页
115
GSPO和DAPO分别解决了什么问题?怎么解决的?
新增
30天内有更新
2026-03-15
强化学习
后训练与对齐
GRPO
PPO
114
重要性采样解决了什么问题?公式是怎么样的?解释下每个参数。
新增
30天内有更新
2026-03-15
强化学习
基础概念
GRPO
PPO
113
GRPO利用的数据是旧策略产生的,那为什么还叫on policy?GRPO的buffer了解吗?
新增
30天内有更新
2026-03-15
强化学习
后训练与对齐
GRPO
PPO
112
GRPO是on policy还是off policy?为什么?
新增
30天内有更新
2026-03-15
强化学习
后训练与对齐
GRPO
PPO
111
解释一下deepspeed的三个zero stage,分别优缺点是什么?什么场景下使用?
30天内有更新
2026-03-04
推理与部署
后训练与对齐
100
QLoRA稳定性问题你遇到过吗?如何兜底?
30天内有更新
2026-03-03
模型结构
后训练与对齐
Transformer
LoRA
99
DPO比SFT多解决了什么真实问题?
30天内有更新
2026-03-03
后训练与对齐
SFT
DPO
98
SFT数据如何清洗,怎么避免模板味太重?
30天内有更新
2026-03-03
后训练与对齐
SFT
91
切分策略(chunk size/overlap)怎么定的?拍脑袋还是实验出来的?
30天内有更新
2026-03-03
模型结构
RoPE
RAG
90
“命中检索但生成幻觉”你会如何分层定位?
30天内有更新
2026-03-03
模型结构
Embedding
注意力
共 96 条,第 1/10 页
每页 10 条
每页 20 条
每页 50 条
上一页
1
2
...
10
下一页