广告算法/策略机制/NLP/LTR/C++
搜索和推荐领域比较核心的研究方向是 query 和 doc 或者是 user 和 item 之间的相关度(Relevance)。传统的相关度计算会对 q&d 或 u&i 的组合进行特征提取然后利用 LTR 模型进行相关性得分计算并排序。近年来不断发展的深度学习技术给相关度计算,特别是语义相关度计算引入新的思路和方法。
最近在公司进行C++代码优化,主要是针对大数据量的场景下,算法库的耗时和并发问题。期间发现了一些利剑级别的工具,还有一些值得记录的优化要点,这里一并记录下来。
CTR(Click-Through Rate)也就是点击率,是一个广告系统的术语,用以衡量一个广告被点击的可能性。在广告系统和推荐系统中,CTR作为一个备选广告和推荐列表的排序标准被广泛应用。由于它和流量收入等直接相关,研究如何提高CTR预估的准确率,始终是一个值得不断探究的方向。本文将分析常规到深度CTR预估方法的演变,争取从中整理出CTR预估的基本技术脉络。
交叉熵主要用于度量两个概率分布间的差异性信息,在机器学习领域应用广泛。在自然语言处理中,语言模型的性能就主要使用交叉熵进行表征。因此,深刻理解交叉熵的意义可以增进我们对机器学习各个领域的认识
动态链接是将程序组织起来的一种手段,相对于静态链接而言有节省内存,增强程序的可扩展性和兼容性等优势。本文旨在对动态链接机制进行解析,包括PIC和PLT等关键技术,并辅以例子说明。最后简述动态链接的步骤和符号优先级问题。
实验室做项目时遇到的工程问题,记录下来以备查用。Python底层是由C编写的,二者间的相互调用是常见的操作。调用基本可分为extension和embedding两种,前者是Python程序为了提高运行速度加入C的扩展模块,后者则是C程序调用Python函数以利用其丰富的库函数和简洁的代码。两种方法都在官网上有详细的介绍,具体的调用过程可以参考以下博客。此文主要记录调用numpy和release到测试机上遇到的问题。
统计学习方法笔记第二篇。今天进行整理的是CART(Classification And Regression Tree)算法。同C4.5相似,CART同样包含特征选择,树生成和剪枝等步骤。CART主要有两点不同:
统计学习方法笔记第一篇。硕士毕业前整理过阅读李航博士的统计学习方法时的笔记。当时记在了几张A4纸上,现在趁着搭建博客的契机再次进行整理,免得那几张孤零零的纸以后寻不着了。今天首先整理的是决策树的ID3和C4.5生成算法,及其剪枝算法
语言模型(language model)主要用于根据前文预测下一个出现的单词,进而可判断一句话是否真实合理。语言模型的性能一般用perplexity来进行衡量。本文旨在对ppl指标进行详细的分析
LTR(Learning To Rank)是有监督的排序学习方法,可应用于信息检索,问答系统,推荐系统商品/用户排序,机器翻译结果排序等诸多领域。RankNet、LambdaMart等经典排序方法的理论成熟,应用广泛,值得深入理解和分析
简单的利用elasticsearch进行关键字搜索的例子