Wissy's Tech Blog


  • 首页

  • 分类

  • 归档

  • 标签

  • 关于

  • ToDo

  • 项目

  • 旅行

  • 书籍

  • 搜索
close
Wissy's Tech Blog

网站类目爬取技巧

发表于 2019-07-14 | 分类于 其他
字数统计: 235 字 | 阅读时长 ≈ 1 分钟
网站类目爬取技巧

我们在爬取网站的时候,经常因为找不到类目入口需要人工整理类目元数据,再输入到爬虫程序里面,这边介绍的方法目前有两种,1. 获取 JS 对象里面的数据,2. 通过 url 分析,后续在补充

JS 对象里面包含的数据

以京东手机触屏版为例, 打开首页类目的页面

阅读全文 »
Wissy's Tech Blog

大数据常见错误解决方案(转载)

发表于 2019-07-11 | 分类于 其他
字数统计: 6,237 字 | 阅读时长 ≈ 28 分钟
大数据常见错误解决方案(转载)

Hadoop

  1. 打开namenode:50070页面,Datanode Infomation只显示一个节点

    解决方法:SSH配置错误导致,主机名一定要严格匹配,重新配置ssh免密码登录

  2. Log aggregation has not completed or is not enabled.

    解决方法:在yarn-site.xml中增加相应配置,以支持日志聚合

  3. 通过hadoop UI访问hdfs文件夹时,出现提示 Permission denied: user=dr.who

    解决方法:namonode节点终端执行:hdfs dfs -chmod -R 755 /

  4. HDFS误删文件如何恢复

解决方法:`core-site.xml`文件中加入

1
2
3
4
<property>
<name>fs.trash.interval</name>
<value>2880</value>
</property>
HDFS垃圾箱设置,可以恢复误删除,配置的值为分钟数,0为禁用 恢复文件执行 `hdfs dfs -mv /user/root/.Trash/Current/误删文件 /原路径`
阅读全文 »
Wissy's Tech Blog

常用的bash 函数(转)

发表于 2019-02-26 | 分类于 其他
字数统计: 4,472 字 | 阅读时长 ≈ 28 分钟
这段脚本包含100多个bash函数,是我几年前方便自己调试和诊断问题写的。贴出来给有需要的人,因为比较懒怎么使用这些函数就不写说明了。其中以下划线开头的是表示私有函数,以cf_开头的表示公共函数,可当做命令使用。
原文:http://hongjiang.info/

阅读全文 »
Wissy's Tech Blog

树莓派使用技巧

发表于 2019-01-30 | 分类于 树莓派
字数统计: 140 字 | 阅读时长 ≈ 1 分钟
使用指南
  • 初次安装树莓派可以准备一根网线,以便方便连接进入 ssh
  • 树莓派的镜像版本默认是没有开启 ssh 的,若想开启,在 boot 下创建 ssh 文件夹即可
  • 初次使用网线进行连接时,可以将树莓派设置成静态 ip,在 cmdline.txt 文件里面加入 ip=x.x.x.x
  • 无线连接在 boot下创建 wpa_supplicant.conf文件,会映射到 /etc下面,以便配置你的无线连接
    1
    2
    3
    4
    network={
    ssid="wifi名称"
    psk ="wifi密码"
    }
Wissy's Tech Blog

神经网络简介

发表于 2018-12-17 | 分类于 深度学习,神经网络
字数统计: 203 字 | 阅读时长 ≈ 1 分钟
神经网络简介

什么是神经网络

梯度下降

CNN (卷积神经网络)

RNN (循环神经网络)

LSTM (长短期记忆)

AOTOENCODER (自编码)

GAN (对抗网络)

强化学习

Model-Free RL,Moel-Based RL,Poliy-Based RL,Value-Base RL,Monte-Carlo update,Temporal-Difference update,On-Policy,offline-Policy
Q learning
Policy Gradients
Sarsa

控制方法
Moel-Based RL
环境理解
想象力,预判断

Actor-Critic
连续的动作

Monte-Carlo Learning
升级版 Policy Gradients

Sara

离线 Q learning
Deep Q learing

Transfer Learning (迁移学习)

如何评价检验神经网络

如何做数据标准化

区分好用的特征

为什么需要激励函数

什么是过拟合

技术神经网络训练

处理不均衡数据

Batch Normalization 批标准化

L1 和 L2 正规标准化

信息熵

信息增益

基尼指数

Wissy's Tech Blog

Hbase rest api

发表于 2018-06-18 | 分类于 Hbase
字数统计: 23 字 | 阅读时长 ≈ 1 分钟
Hbase Rest API

Hbase Rest 服务默认是不启动的

1
2
# 前台启动
# 后台启动

Wissy's Tech Blog

使用Hive正确导出csv的姿势

发表于 2018-04-02 | 分类于 Hive , 大数据
字数统计: 243 字 | 阅读时长 ≈ 1 分钟
使用Hive导出csv

大家在导出csv后,使用Excel大家文件的时候,会遇到这样的问题,文件的存在少量串行的数据,虽然不影响整体数据,但是有的时候遇到高精度计算的过程中,还是难免有些尴尬😅

  1. 导出的时候进行转义
  2. 导出的时候使用其他格式,在Excel中使用 数据->文件->自文本导入 使用自定义格式导入
  3. 使用Hive序列化导入,会自动规整格式
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    CREATE TABLE  wys.wys_output
    ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
    WITH SERDEPROPERTIES (
    "separatorChar" = ",",
    "quoteChar" = "\"",
    "escapeChar" = "\""
    )
    STORED AS TEXTFILE
    as select
    distinct
    a,
    b
    from xxx;

Excel中csv格式中会出现\n 使用rtrim和ltrim可以去除,每一列数据都是以"分割数据,但是在数据出现"号的话就会导致数据串行,此时我们可以使用""来代表那是数据中双引号

Wissy's Tech Blog

Spark Shuffle总结

发表于 2018-02-04 | 分类于 Spark
字数统计: 655 字 | 阅读时长 ≈ 3 分钟
Spark Shuffle的过程:

1.1 以前 Hash Shuffle
1.1.x 添加Sort Shuffle
1.5.x 添加Unsafe Shuffle
1.6.x 合并Unsafe Shuffle和Sort Shuffle
2.0.x 移除Hash Shuffle

阅读全文 »
Wissy's Tech Blog

百度高级搜索

发表于 2017-12-15 | 分类于 其他
字数统计: 106 字 | 阅读时长 ≈ 1 分钟
搜索标题内限定的字符
1
xxx intitle:xxx

只搜索特定站点的数据(只写域名)

1
xxx site:xxx
阅读全文 »
Wissy's Tech Blog

Linux 删除乱码文件

发表于 2017-12-07 | 分类于 其他
字数统计: 201 字 | 阅读时长 ≈ 1 分钟
我们在工作的时候由于各种原因会产生乱码文件,产生的乱码的文件主要分为两种

  1. 不完全乱码 如:?j?
    因为我们可以看到一个字符,可以使用rm -rvf *j*
  2. 完全乱码 如:????
    像这样的数据我们就不能使用正则的方法删除文件

    1
    2
    3
    1. ls -i # 查看文件inode节点数
    2. find ./ -inum 节点数 -exec mv {} a.txt \; #修改乱码文件为a.txt
    3. find ./ -inum 节点数 -exec -print -exec rm -rvf {} \; #删除乱码文件

    例如:

    1
    2
    3
    4
    5
    6
    7
    8
    9
    wissy@wissy-PC:/tmp$ ls -i
    72294967 ? 69156075 b.txt
    wissy@wissy-PC:/tmp$ find ./ -inum 72294967
    ./?
    #删除文件
    wissy@wissy-PC:/tmp$ find ./ -inum 72294967 -print -exec rm -rf {} \;
    ./?
    #或者重命名文件
    wissy@wissy-PC:/tmp$ find . -inum 69156056 -exec mv {} file.txt \;
12
Yongsheng Wang

Yongsheng Wang

胡编一通,乱写一气

20 日志
12 分类
31 标签
RSS
© 2014 - 2019 Yongsheng Wang
Hosted by Coding Pages
由 Hexo 强力驱动
主题 - NexT.Mist
| Site words total count: 15.7k