大小单双网站-官方网站

新闻中心你的位置:大小单双网站-官方网站 > 新闻中心 > 赌钱赚钱官方登录且最优架构因数据集而异-大小单双网站-官方网站

赌钱赚钱官方登录且最优架构因数据集而异-大小单双网站-官方网站

发布日期:2025-08-22 11:27    点击次数:70

赌钱赚钱官方登录且最优架构因数据集而异-大小单双网站-官方网站

推选大模子也可生成式赌钱赚钱官方登录,况兼初次在国产昇腾 NPU 上收效部署!

在信息爆炸期间,推选系统已成为活命中不行或缺的一部分。Meta 最初建议了生成式推选范式 HSTU,将推选参数彭胀至万亿级别,赢得显耀效果。

探索流程中还有哪些教化与发现?最新公开共享来了。

阐发亮点包括:

记忆推选范式发展历程,指出具备彭胀定律的生成式推选范式是往日趋势;

复现并筹商不同架构的生成式推选模子偏持彭胀定律;通过消融实验和参数分析,剖析 HSTU 的彭胀定律泉源,并赋予 SASRec 以可彭胀性;

考证 HSTU 在复杂场景和排序任务中的表露及彭胀性;

团队瞻望并记忆往日筹商主张。

具备彭胀定律的生成式推选范式正在成为往日趋势

如图 1 所示,推选系统的发展趋势是寂静减少敌手工商量特征工程和模子结构的依赖。在深度学习兴起之前,受限于谋划资源,东谈主们倾向于使用手工商量的特征和肤浅模子(图 1A)。

跟着深度学习的发展,筹商者专注于复杂模子的商量,以更好地拟合用户偏好,并提高对 GPU 并行谋划的专揽率(图 1B)。

但是,跟着深度学习才能的瓶颈,特征工程再次受到温雅(图 1C)。

如今,大言语模子彭胀定律的收效启发了推选规模的筹商者。彭胀定律描摹了模子性能与关节目的(如参数范围、数据集范围和锻练资源)之间的幂律关连。通过增多模子深度和宽度,并结合多数数据,不错提高推选效果(图 1D),这种智力被称为推选大模子。

近期,HSTU 等生成式推选框架在此主张赢得了显耀效果,考证了推选规模的彭胀定律,激励了生成式推选大模子筹商的高涨。团队以为,生成式推选大模子正在成为颠覆现时推选系统的下一个新范式。

在此配景下,探索哪些模子的确具备可彭胀性,筹商其收效应用彭胀定律的原因,以及若何专揽这些限定提高推选效果,已成为现时推选系统规模的热点课题。

基于不同架构的生成式推选大模子彭胀性分析

为了评估生成式推选大模子在不同架构下的彭胀性,团队对比了 HSTU、Llama、GPT 和 SASRec 四种基于 Transformer 的架构。

在三个公开数据集上,通过不同贵重力模块数目下的性能表露进行分析(见表 1)。狂妄裸露,当模子参数较小时,各架构表露同样,且最优架构因数据集而异。

但是,跟着参数彭胀,HSTU 和 Llama 的性能显耀提高,而 GPT 和 SASRec 的彭胀性不及。尽管 GPT 在其他规模表露邃密,但在推选任务上未达预期。团队以为,这是因为 GPT 和 SASRec 的架构枯竭专为推选任务商量的关节组件,无法有用专揽彭胀定律。

生成式推选模子的可彭胀性泉源分析

为了探究 HSTU 等生成式推选模子的可彭胀性泉源,团队进行了消融实验,鉴识去除了 HSTU 中的关节组件:相对贵重力偏移(RAB)、SiLU 激活函数,以及特征交叉机制。

实验狂妄(见表 2)裸露,单一模块的缺失并未显耀影响模子的彭胀性,但 RAB 的移除导致性能彰着下跌,标明其关节作用。

为了进一步分析赋予模子彭胀定律的身分,团队比较了 SASRec 与彭胀性邃密的 HSTU 和 Llama 的区别,发现主要各异在于 RAB 和贵重力模块内的残差伙同形式。

为考证这些各异是否为彭胀性的关节,团队为 SASRec 引入了 HSTU 的 RAB,并休养其贵重力模块的完了形式。

实验狂妄(见表 3)裸露,单独添加 RAB 或修改残差伙同并未显耀改善 SASRec 的彭胀性。但是,当同期修改两个组件后,SASRec 展现出邃密的彭胀性。这标明,残差伙同模式与 RAB 的结合,为传统推选模子赋予了彭胀性,为往日推选系统的彭胀性探索提供了迫切启示。

生成式推选模子在复杂场景和排序任务中的表露复杂场景中的表露

HSTU 在多域、多举止和提拔信息等复杂场景中表清晰色。以多域为例,HSTU 在 AMZ-MD 的四个域中恒久优于基线模子 SASRec 和 C2DSR(见表 4)。

与单域颓败锻练的 HSTU-single 比拟,多域协调锻练的 HSTU 表露更佳,诠释了多域协调建模的上风。表 5 裸露,HSTU 在多域举止数据上的彭胀性显耀,尤其在范围较小的场景如 Digital Music 和 Video Games 上。这标明 HSTU 在科罚冷运转问题上具有后劲。

在排序任务中的表露

排序是推选系统中迫切的一环,团队潜入筹商了生成式推选模子在排序任务中的有用性和彭胀性。正如表 6 所示,生成式推选大模子在性能上显耀优于 DIN 等传统推选模子。尽管在小范围模子下,Llama 的表露优于 HSTU,但 HSTU 在彭胀性方面更具上风,而 Llama 在彭胀性上显得不及。

团队还筹商了负采样率和评分集聚架构对排序任务的影响,并进行了全面分析。此外,还筹商了缩减 embedding 维度对性能的影响。松开 embedding 维度(表 7)提高了一丝据集 ML-1M 和 AMZ-Books 的性能,但在大数据集 ML-20M 上则有所下跌。这标明,推选大模子的彭胀定律不仅受垂直彭胀(贵重力模块数目)影响,也受水平范围(embedding 维度)影响。

往日主张和记忆

在期间阐发中,团队指出了数据工程、Tokenizer、锻练推理着力等推选大模子往日筹商的后劲主张,这些主张将匡助科罚现时的挑战并拓宽应用场景。

论文联络 :   https://arxiv.org/abs/2412.00714

主页联络 :   https://github.com/USTC-StarTeam/Awesome-Large-Recommendation-Models

一键三连「点赞」「转发」「留神心」

迎接在辩论区留住你的思法!

—  完  —

学术投稿请于责任日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿施行‍

附上论文 / 方法主页联络,以及关联形式哦

咱们会(尽量)实时复兴你

� � 点亮星标 � �

科技前沿进展逐日见赌钱赚钱官方登录



Powered by 大小单双网站-官方网站 @2013-2022 RSS地图 HTML地图

top