数据不平衡
数据不均衡 所谓的不平衡指的是不同类别的样本量差异非常大,或者少数样本代表了业务的关键数据(少量样本更重要),需要对少量样本的模式有很好的学习
xgboost
OOV问题
面试中经常被问到的一个问题就是out of vocabulary,可能是因为当前数据集中出现了提前准备好的单词表中没有的word,也可能是因为te
kaggle情绪分类
文本匹配比赛
regression
一个线性回归的神经网络模型 import torch import numpy as np import pandas as pd import plotly.graph_objects as go import torch.nn import torch.nn.functional as F from torch.autograd import Variable x = torch.unsqueeze(torch.linspace(-10,10,100),dim=1) y = x*2+10+torch.rand(x.size()) # scatter = go.Scatter(x = torch.squeeze(x),y = torch.squeeze(y),mode = 'markers') # fig = go.Figure(scatter) # fig.show() class Net(torch.nn.Module): def __init__(self): super(Net,self).__init__() self.hidden = torch.nn.Linear(1,10) self.linser = torch.nn.Linear(10,1)
GAN
简介 生成对抗网络(Generative Adversarial Network,简称GAN)是无监督学习的一种方法,通过让两个神经网络相互博弈的方式进行学习。 大白话
LDA
线性判别分析LDA(Linear Discriminant Analysis) 线性判别分析,也就是LDA(与主题模型中的LDA区分开),现在常常用于数据的降维中,但从它的名字中可以看
SelectFromModel
Sklearn.feature_selection.SelectFromModel class sklearn.feature_selection.SelectFromModel(estimator, *, threshold=None, prefit=False, norm_order=1, max_features=None)[source] 参数 Parameters - estimator_:一个估算器 用来建立变压器的基本估计器。 只有当一个不适合的估计器传递给SelectFromMod
GRU
bincount
很简单,就是统计x中的数出现次数,返回结果的最大长度就是x中的最大值+1,idx为对应的数,值为出现的次数,没有出现的为0。 x = np.array([7, 6, 2, 1, 4]) #