DL/cuda関係スクラップ
面白い記事のスクラップ
雑記
AIの分類、できる事、これからの事。
https://note.mu/tomo_makes/n/na7676fa64380
yolo v3 on keras
yolo v3 とtiny
https://qiita.com/yoyoyo_/items/10d550b03b4b9c175d9c
TensorRT
Tensorflow + TensorRTによる推論の高速化。
TensorCoreを試す一つの方法がTensorRT。NanoのMaxwellにはTensorCoreが載っていないが、Xavier のVoltaに載っている。Xavierでなら効果を実感できるか?
同じモデルでNanoとXavierを比較するのも面白いかもしれない。
tensorrt engine
https://qiita.com/TrsNium/items/f53fcd8613d1ca61537b
nvidia tensorrt
https://developer.nvidia.com/tensorrt
tensorflow tensorRT ssd mobilenet on nano
nano のメモリで足りるか心配。 SD上でswapを使うと遅くなりそうだが、m.2 e key pcie x1 ssdもそんなに早くはなさそう。
m.2 m key pcie x4 ssdと16GBメモリのxavier devkitが10万円を切ったので、nano との棲み分けを考えた方が良さそう。
https://www.dlology.com/blog/how-to-run-tensorflow-object-detection-model-on-jetson-nano/
coco
記事ではないが、参考。
google edge tpu
https://misoji-engineer.com/archives/tpu.html
coco modelを使ったチュートリアル
以前にリンクを貼ったかも。
SSD, Yolo精度性能比較。
少し古いので、yolov3等はなし。
https://qiita.com/tokkuman/items/3fabd04a1a524843bea5
SSD説明
少し細かい。
https://qiita.com/YutoHagiwara/items/4b66442ff1e09936f1d0
pandas
https://deepage.net/features/pandas-dataframe.html
python argparse
https://qiita.com/kzkadc/items/e4fc7bc9c003de1eb6d0
gpu direct rdma
https://docs.nvidia.com/cuda/gpudirect-rdma/index.html#standard-dma-transfer-example-sequence
tegra gpu
https://www.nvidia.com/ja-jp/geforce/turing/
cuda training
https://manualzz.com/doc/48821871/cuda-technical-training
tensor core code
http://proc-cpuinfo.fixstars.com/2018/10/tensorcore/
cuda related
tegra memory
https://docs.nvidia.com/cuda/cuda-for-tegra-appnote/index.html
https://docs.nvidia.com/cuda/cuda-for-tegra-appnote/index.html
cudaHostAlloc() warning出る cudaMallocHost() warning出ない cudaMallocManaged() uma alloc cudaStreamAttachMemAsync(NULL, h_a, 0, cudaMemAttachGlobal); to device cudaStreamAttachMemAsync(NULL, h_d, 0, cudaMemAttachHost) to host don't forget cudaStreamSynchronize(NULL);
tegra zero copy
http://arrayfire.com/zero-copy-on-tegra-k1/
cuda shared memory
wmma api http://proc-cpuinfo.fixstars.com/2018/10/tensorcore/
cuda配列和
https://qiita.com/gyu-don/items/ef8a128fa24f6bddd342
https://gist.github.com/gyu-don/7aa8c013e966579862323a764b28f794
複数gpu
cudaSetDevice()か、下記。
numactl --cpunodebind=0 --localalloc CUDA_VISIBLE_DEVICES=0 ./a.out & numactl --cpunodebind=0 --localalloc CUDA_VISIBLE_DEVICES=1 ./a.out & numactl --cpunodebind=1 --localalloc CUDA_VISIBLE_DEVICES=2 ./a.out & numactl --cpunodebind=1 --localalloc CUDA_VISIBLE_DEVICES=3 ./a.out