qshinoの日記

Powershell関係と徒然なこと

DL/cuda関係スクラップ

pi and jetson

面白い記事のスクラップ

雑記

AIの分類、できる事、これからの事。

https://note.mu/tomo_makes/n/na7676fa64380

yolo v3 on keras

yolo v3 とtiny

https://qiita.com/yoyoyo_/items/10d550b03b4b9c175d9c

TensorRT

Tensorflow + TensorRTによる推論の高速化。

TensorCoreを試す一つの方法がTensorRT。NanoのMaxwellにはTensorCoreが載っていないが、Xavier のVoltaに載っている。Xavierでなら効果を実感できるか？

同じモデルでNanoとXavierを比較するのも面白いかもしれない。

tensorrt engine

https://qiita.com/TrsNium/items/f53fcd8613d1ca61537b

nvidia tensorrt

https://developer.nvidia.com/tensorrt

tensorflow tensorRT ssd mobilenet on nano

nano のメモリで足りるか心配。 SD上でswapを使うと遅くなりそうだが、m.2 e key pcie x1 ssdもそんなに早くはなさそう。

m.2 m key pcie x4 ssdと16GBメモリのxavier devkitが10万円を切ったので、nano との棲み分けを考えた方が良さそう。

https://www.dlology.com/blog/how-to-run-tensorflow-object-detection-model-on-jetson-nano/

coco

http://cocodataset.org/

記事ではないが、参考。

google edge tpu

https://misoji-engineer.com/archives/tpu.html

coco modelを使ったチュートリアル

https://medium.com/object-detection-using-tensorflow-and-coco-pre/object-detection-using-tensorflow-and-coco-pre-trained-models-5d8386019a8

以前にリンクを貼ったかも。

SSD, Yolo精度性能比較。

少し古いので、yolov3等はなし。

https://qiita.com/tokkuman/items/3fabd04a1a524843bea5

SSD説明

少し細かい。

https://qiita.com/YutoHagiwara/items/4b66442ff1e09936f1d0

pandas

https://deepage.net/features/pandas-dataframe.html

python argparse

https://qiita.com/kzkadc/items/e4fc7bc9c003de1eb6d0

gpu direct rdma

https://docs.nvidia.com/cuda/gpudirect-rdma/index.html#standard-dma-transfer-example-sequence

tegra gpu

https://www.nvidia.com/ja-jp/geforce/turing/

cuda training

https://manualzz.com/doc/48821871/cuda-technical-training

tensor core code

http://proc-cpuinfo.fixstars.com/2018/10/tensorcore/

cuda related

tegra memory

https://docs.nvidia.com/cuda/cuda-for-tegra-appnote/index.html

https://docs.nvidia.com/cuda/cuda-for-tegra-appnote/index.html

cudaHostAlloc() warning出る
cudaMallocHost() warning出ない
cudaMallocManaged() uma alloc
cudaStreamAttachMemAsync(NULL, h_a, 0, cudaMemAttachGlobal); to device
cudaStreamAttachMemAsync(NULL, h_d, 0, cudaMemAttachHost) to host
don't forget
cudaStreamSynchronize(NULL);

tegra zero copy

http://arrayfire.com/zero-copy-on-tegra-k1/

cuda shared memory

http://www.slis.tsukuba.ac.jp/~fujisawa.makoto.fu/cgi-bin/wiki/index.php?CUDA%A4%C7%B9%D4%CE%F3%B1%E9%BB%BB%A1%A7%BE%E8%BB%BB%28%A5%B7%A5%A7%A5%A2%A1%BC%A5%C9%A5%E1%A5%E2%A5%EA%BB%C8%CD%D1%C8%C7%29

大友さんのtensor core api

wmma api http://proc-cpuinfo.fixstars.com/2018/10/tensorcore/

cuda配列和

https://qiita.com/gyu-don/items/ef8a128fa24f6bddd342

https://gist.github.com/gyu-don/7aa8c013e966579862323a764b28f794

複数gpu

cudaSetDevice()か、下記。

numactl --cpunodebind=0 --localalloc CUDA_VISIBLE_DEVICES=0 ./a.out & numactl --cpunodebind=0 --localalloc CUDA_VISIBLE_DEVICES=1 ./a.out & numactl --cpunodebind=1 --localalloc CUDA_VISIBLE_DEVICES=2 ./a.out & numactl --cpunodebind=1 --localalloc CUDA_VISIBLE_DEVICES=3 ./a.out

他