Mark Blog

Be faithful to time, Be loyal to yourself.

Simhash海量文本去重

Simhash算法

Simhash Simhash算法是为了解决文本相似性的。 Simhash流程实现 1、分词,把需要判断文本分词形成这个文章的特征单词。最后形成去掉噪音词的单词序列并为每个词加上权重,我们假设权重分为5个级别(1~5)。比如:“ 美国“51区”雇员称内部有9架飞碟,曾看见灰色外星人 ” ==> 分词后为 “ 美国(4) 51区(5) 雇员(3) 称(1) 内部(2) 有(1...

Python中的多进程和多进程

多进程和多进程

多线程和多进程 多线程(Threading) 多线程的理念是分批的想法。 如果我有一大批数据,使用一个cpu,可能需要10秒,但是如果我把数据分成两批,同时使用2个CPU进行处理,时间就可以减少到5秒。 添加线程 import threading def thread_job(): print('This is added Thread, number is %s' % t...

维比特算法

维比特

维比特算法 问题 动态规划最佳的路径: 路径总数为: 3*3*3=27 每次从头算到尾,每一条路径需要经过4次加法,共: 27*4 = 108 维比特算法的推演 假设我们处于位置t(有n个选择),如果我们想要知道t+1(m个选择)步应该怎么走,我们需要知道从(0-t)共n个路径的值(这个路径的值已经是前面的最小的了)是多少。还需要知道从t到t+1的对于n中的每一个,对应的...

深度学习中的优化器

优化器

深度学习中的优化器 指数加权平均 说到优化器,需要先了解一下指数加权平均的基础。 什么是指数加权平均 指数加权平均(exponentially weighted averges),也叫指数加权移动平均,是一种常用的序列数据处理方式。 它的计算公式如下: 其中: θ_t:为第 t 天的实际观察值, V_t: 是要代替 θ_t 的估计值,也就是第 t 天的指...

BP算法

BP

BP算法 前向传播 对于k,k+1 层的前向传播为: 反向传播 损失函数 Loss对k层$w^{(k)}, b^{(k)}$偏导数为: 假设:$\delta^{(k)} = \frac{\partial{L(y, \hat{y})}}{\partial{z^{(k)}}}$ 计算$z^{(k)}$的导数 计算$\frac{\partial{z^{(k)...

吴恩达deep-learning序列模型-序列模型与注意力机制

序列模型与注意力机制

序列模型与注意力机制 基础模型 机器翻译(seq2seq) 编码网络和解码网络 这是一个RNN的结构 首先,把法语输入一个RNN,能够得到一个向量。–编码网络 再把这个向量作为输入,输入一个RNN,得到输出的英文。–解码网络 图像描述(image2seq) 首先把图片输入一个CNN,得到一个向量。 再把这个向量作为输入,输入到一个RNN,得到图片对应的...

Hackintosh踩坑盘点

Hackintosh踩坑盘点

Hackintosh 那些踩过的坑 常识 kext 驱动程序 详细信息 备注 FakeSMC.kext 安装hackintosh的核心程序,没有它就没法在你的电脑上面运行macOS 必备 Lilu.kext 内核扩展程序,...

吴恩达deep-learning序列模型-自然语言处理与词嵌入

自然语言处理与词嵌入

自然语言处理与词嵌入 词汇表征 one-hot word-embedding 可视化算法:t-SNE 使用词嵌入 词嵌入的特性 嵌入矩阵 学习词嵌入 Word2vec skip-gram 比方说,先选定一个词,orange。在orange的上下文为10的窗口内,随机选定一个词进行预测,假设这个词为“juice”。那么正确的答案就应该是juice。...

吴恩达deep-learning序列模型-循环序列模型

循环序列模型

循环序列模型 为什么选择序列模型 数学符号 循环神经网络模型 如果采用传统的神经网络模型。 输入和输出在不同的样本中,可能不同 他的结果,不能共享 比方在一篇文章中,识别出来“Harry”是一个人名,他并不能共享到其他的样本中,标准另一个样本中那个的“Harry”也是一个人名。 那么循环神经网络是怎么做的呢? 第一个样本...

深度学习中的卷积神经网络

卷积神经网络

卷积神经网络 神经网络到卷积神经网络(CNN) 当层次开始非常多的时候,计算量会非常大。 过拟合的问题。最根本的原因的神经元过多了。 问题: 把w的个数降下来。 又有很强的学习能力。 卷积神经网络之层级结构 数据输入层(Input layer) 卷积计算层(CONV layer) 激励层(ReLU layer) 池化层...