MiniMind 轻量大模型的训练与微调 原项目地址:https://github.com/jingyaogong/minimind?tab=readme-ov-file 整体概述 MiniMind模型架构: 基于 Transformer 的 Decoder-Only 结构,采用 RMSNorm 进行每个子层输入的归一化处理。 使用旋转位置嵌入 (RoPE) 来提升模型的位置信息表示。 在前馈网络 (FFN) 中使用Sw 2026-01-17
搜广推学习之路(四) 推荐系统课程 王树森推荐系统课程 排序 粗排和精排的原理类似,只是模型大小不同,所以下面讲解不具体区分粗排和精排。 排序的依据:排序模型预估点击率、点赞率、收藏率和转发率等多种分数,然后再融合这些预估分数,根据融合后的分数做排序和截断。 多目标模型 如图所示,多目标模型的输入是各种特征的组合,用户特征(用户ID和用户画像)、物品特征(物品ID、物品画像和作者信息)、统计特征(用 2025-12-25
搜广推学习之路(三) 推荐系统课程 王树森推荐系统课程 概要 基本概念 下图为小红书中推荐系统的转化流程 下图为一些消费指标,这些指标可以反映用户对于推荐是否满意。 点击率=点击次数/曝光次数 点赞率=点赞次数/点击次数 收藏率=收藏次数/点击次数 转发率=转发次数/点击次数 阅读完成率=滑动到底次数/点击次数 x f(笔记长度) 对于阅读完成率来说,存在一个潜在问题:短笔记天然更容易获 2025-11-28
搜广推学习之路(二) 深度学习 循环神经网络(RNN) 普通前馈神经网络(如CNN)一般处理的是固定长度、互不相关的输入,比如一张图片、一个固定长度的特征向量。但很多任务中,当前时刻的输出跟“之前发生了什么”强相关,例如:机器翻译:当前要翻译的词要看前面一句话的意思;语言模型:预测下一个词要看前面所有词;股票预测:今天的走势与过去几天的价格、成交量有关。因此,为了能够更好的处理序列的信息,RNN产生了。 首先介绍 2025-11-28
搜广推学习之路(一) 研0,尝试零基础转搜广推,在此记录我的学习过程,夯实基础的同时为后来者提供经验。 机器学习 快速:基础概念、树和集成学习等(尤其是逻辑回归、bagging、boosting部分) 长期:吴恩达机器学习 绪论 基本术语 首先假定我们收集了一批关于西瓜的数据,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺; 2025-10-06