多模态工业异常检测(Multimodal Industrial Anomaly Detection)
多模态异常(缺陷)检测数据模态目前多模态检测算法涉及的数据模态主要(或者说仅仅)有RGB图像、单视角点云(深度图)、文本
数据集常见的数据集包括MVTec 3D-AD、EyeCandies
数据集名称
类别数
MVTec 3D-AD
10
EyeCandies
10
Real3D-AD
12
检测算法(基于 RGB + Point Cloud)(写在前面)PatchCore论文:Towards Total Recall in Industrial Anomaly Detection (CVPR 2022)[注:后面大量的工作都是基于PatchCore的模式]
关键思想:Maximally Representative Memory Bank of Nominal Patch-features.
Memory Bank 机制
MemoryBank 建立在一个具有内存检索和更新机制的内存存储器上,能够总结过去的事件。通过不断的记忆更新不断进化,通过合成以前的信息,随着时间的推移理解,根据经过的时间和记忆的相对重要性来忘记和强化记忆。每次出现查询请求时,都会遍历一遍历 ...
M3DM复现记录
1 创建 python3.9 环境12conda create -n pointnet2_ops python=3.9source activate pointnet2_ops
2 更改 nvcc 版本1234cd /M3DMconda search cuda-nvcc -c nvidiaconda install cuda-nvcc=11.3.58 -c nvidianvcc -V
3 安装 pytorch1pip install torch==1.9.0+cu111 torchvision==0.10.0+cu111 torchaudio==0.9.0 -f https://download.pytorch.org/whl/torch_stable.html
或 (为使用 torch.frombuffer,推荐兼容性更高的新版本)
1pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/ ...
少样本学习(Few Shot Learning)
挖坑待填~
开始之前,我们先了解一下什么是元学习(Meta Lerrning)?
Meta Learning
2023博士申请记录
个人背景本硕学校:湘潭大学,研究方向:计算机视觉方向论文情况:1篇中科院二区TOP、1篇CCF A中文(均为导师一作,本人二作)硕士绩点:3.42/4,排名第一获奖情况:国家奖学金、校长奖学金、特等学业奖学金(两次)外语水平:英语六级474
选择学校中山大学中南大学湖南大学华南理工大学武汉大学华中科技大学重庆大学
联系导师套磁邮件
邮件内容:尊敬的X教授, 您好!我叫蒋帅,来自湘潭大学智能计算与信息处理教育部重实验室,目前是计算机技术专业(专硕)的研三学生,硕士期间的研究方向是深度学习和医学图像分析,我想知道您目前是否还有博士招生的名额,希望有机会能够成为您的博士研究生。 以下是本人攻读硕士学位期间的学习经历和科研成果简述: 1)学习方面,本人连续三年在学院的综合测评中排名专业第一,并获国家奖学金、湘潭大学特等奖学金(连续两年)和“湘潭大学三好研究生”称号。 2)科研方面,本人作为骨干成员参与国家自然科学基金青年项目2项、湖南省教育厅优秀青年基金2项。在国内外期刊上发表学术论文2篇,其中中科院二区论文1篇,CCF A类中文期刊论文1篇 ...
2022 秋招
以本文记录本人在互联网寒冬中的第一次秋招经历。
写在前面:Offer 机会:宣讲会 > 官网投递 > 第三方招聘平台面试机会:宣讲会 > 第三方招聘平台 > 官网投递
什么时候开始?8 月底实验室集体放了个假,想着回学校还能再观望观望,当时可能还没意识到 2022 年互联网行业招聘的寒气,觉得好像金 9 银 10 的传统还会保持下去。其中极大一部分原因还是因为身边的同学和朋友都没怎么开始找工作,只有儒哥在卷提前批而且还拿到了蔚来的 offer。
直到同班同学在提前批也拿了 offer,加上这个过程中在脉脉、牛客这些论坛上看到双 985 都找不到工作(制造焦虑),才觉得自己应该也要开始找工作了。
简历投递试探9 月的第一周,抱着给同门试水的心态投了若干家北京、上海和杭州等地的公司。
第一家投的网易云音乐,很快就发来了笔试邀请。在 A 了 3/4 的情况下挂了笔试。
之后又陆续投了 OPPO、VIVO、京东、小红书、字节等等一系列大厂,不出意外地过不了初筛。
海投认清现实,开始海投~
笔试面试大多数面试的公司问的问题都挺水的,放一些些微有技术含量的。(以下仅为技 ...
For Offersssss! (数据结构与算法篇)
数据结构顺序表12345678// 动态数组vector<int> a;a.push_back(x); // 添加元素 // 以下方法均不包含右端点sort(a.begin(),a.end()); //从a.begin()到a.end()从小到大排列reverse(a.begin(),a.end()); //从a.begin()到a.end()的元素倒置,但不排列copy(a.begin(),a.end(),b.begin()+1); //从a.begin()到a.end()的元素复制到b中,从b.begin()+1的位置(包括它)开始复制,覆盖掉原有元素find(a.begin(),a.end(),10); //从a.begin()到a.end()的元素中查找10,存在则返回其位置
12345# Python列表的定义方式#(1)一维数组:list = [0]*n#(2)二维数组:list = [[0]*m for _ in range(n)]
118. 杨辉三角
12 ...
For Offersssss! (机器学习篇)
不重复造轮子了,直接放链接学习……相关描述为直接转载
模型评估性能度量准确率(查准率)所有 预测为正例 的样本中 真正例的占比,**查准率**,$$Precision=\frac{TP}{TP+FP}$$
召回率(查全率)所有 实际为正例 的样本中 真正例的占比,**查全率**,$$Recall=\frac{TP}{TP+FN}$$
F-score基于查全率和查准率的 调和平均,$$\frac{1}{F1}=\frac{1}{2}(\frac{1}{P}+\frac{1}{R}) \Rightarrow F1=\frac{2 \times P \times R}{P+R}$$
真正例率正样本中预测为正例(预测对的正样本)的占比,$$TPR=\frac{TP}{TP+FN}=Recall$$
假正例率负样本中预测为正例(预测错的正样本)的占比,$$FPR=\frac{FP}{TN+FP}$$
P-R曲线与ROC曲线的区别ROC曲线和P-R曲线选择
P-R曲线与ROC曲线的区别与选择(1)应用场景ROC曲线:一般用于 ...
For Offersssss! (深度学习篇)
卷积神经网络(CNN)卷积层
提取图像中的局部特征,其原理是通过许多的卷积核 (filter, kernel) 在图片上进行滑动提取特征。
卷积核
特性:权值共享(一个卷积核滑动提取图像的某一个特征,进而带来平移不变性)、局部连接(感知图像的局部信息)
参数:核大小 Kernel Size、步长 Stride、卷积核数量(通道) Channel、边界填充 Padding
输出大小计算公式:$ H_{out} = \frac{H_{in} - K + 2P}{S} + 1 $,$ W_{out} = \frac{W_{in} - K + 2P}{S} + 1 $
注:卷积核通常设定为奇数的原因?(保证padding时候,图像的两边依然相对称),3×3 的卷积核是最优选择。
感受野
概念:输出特征图上的像素点对于原图的映射区域的大小
1 × 1 卷积
作用:(1)实现信息的跨通道交互和整合;(2)对卷积核通道数进行降维或升维,减小参数量。
K × K 卷积
⼤多数情况下,通过 堆叠较⼩的卷积核 ⽐直接采⽤ 单个更⼤的卷积核 会更加有效。**如:两层 3×3 卷 ...
For Offersssss! (Linux与Python篇)
ACM 模式下的 python模板万能输入语句:
1map(lambda x: int(x), input().split())
1234567891011121314151617class Solution: def Function(self, ...): print(...) returnif __name__=="__main__": # 单行输入两个数 n, m = map(lambda x: int(x), input().split()) # m行输入,保存为列表即可 lst = [] for i in range(m): lst.append(list(map(lambda x: int(x), input().split()))) # 输出 Solution().Function(...)
以下为举例:【模板】 拓扑排序
描述给定一个包含 $n$ 个点 $m$ 条边的有向无环图,求出该图的拓扑序。若图的拓扑序不唯一,输出任意合法的拓扑序即可。若该图不能拓 ...
For Offersssss! (图像处理篇)
图像处理图像处理基础
图像预处理方法及原理低通高通滤波器高斯滤波器均值、中值滤波
图像的增强和降噪几何变换颜色变换区域置零
常用的图像特征提取算法方向梯度直方图(HOG)尺度不变特征变换(SIFT)加速稳健特征(SURF)高斯函数差分(DOG)局部二值模式(LBP)哈尔变换(HAAR)
常用的图像插值算法
直方图直方图的概念直方图均衡化
图像变换图像编码和压缩图像增强和复原图像分割边缘检测
传统的边缘检测算子SobelCannyPrewittLaplaceRobert各算法优缺点
极大值抑制
形态学处理
腐蚀
膨胀
开运算
闭运算
OpenCV注:以下转自面试问题总结——关于OpenCV【地表最全】零基础!计算机视觉OpenCV从入门到入土
OpenCV 中 cv::Mat 的深拷贝和浅拷贝问题深拷贝:分配新内存的同时拷贝数据,当被赋值的容器被修改时,原始容器数据不会改变。浅拷贝:仅拷贝数据,当被赋值容器修改时,原始容器数据也会做同样改变。
OpenCV 的 Mat 时,有几种赋值方式分别为: 深拷贝 是 b = a.clone(); 和 a.copyTo(b) ...
(持续更新中...)Leetcode 周赛记录
慢慢刷题慢慢补充~
写在最前面的小笔记(持续补充):(1)ASCII 码表:ASCII码中文站(2)字符串数组用 strings.sort() 排序,sorted 不适用(3)Python 字符串 string 类型不支持更改(4)初始化一个字典用 collections.defaultdict(5)有序列表可以用 sortedcontainers.SortedList
2022-08-14 第 306 场周赛T1 6148. 矩阵中的局部最大值
模拟最大池化,Deep Learning 人狂喜
1234567891011121314151617class Solution: def largestLocal(self, grid: List[List[int]]) -> List[List[int]]: n = len(grid) self.grid = grid maxLocal = [[0]*(n-2) for _ in range(n-2)] for i in range(n-2): ...
Swin Transformer 论文阅读笔记
论文来源:【ICCV 2021 最佳论文】 Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows [Paper] [Code]
研究动机和思路
“We seek to expand the applicability of Transformer such that it can serve as a general-purpose backbone for computer vision, as it does for NLP and as CNNs do in vision.” 我们试图扩展 Transformer 的适用性,使其可以作为计算机视觉任务的通用主干,就像它在 NLP 领域和 CNN 在视觉邻域中所起到的效果。
图像信息建模:如下图所示,ViT 在对图像进行自注意力时,始终在原图 1/16 大小的 patch 上进行,实现图像信息的全局建模。受限于此,**ViT 无法从局部层面提取图像特征,以及无法实现图像多尺度特征的表示**(在密集预测型任务中尤为重要,如图像分割和目标检测 ...
图像投影网络(Image Projection Network, IPN)系列论文阅读笔记
主要是以下两篇论文:IPN(TMI 2020):Image Projection Network: 3D to 2D Image Segmentation in OCTA ImagesIPN V2(arXiv 2020):IPN-V2 and OCTA-500: Methodology and Dataset for Retinal Image Segmentation
图像投影网络的设计来源眼科临床
“Comparing to color fundus imaging technology, OCT can acquire more detailed information about retinal structures and thus becomes a leading modality in the clinic observation of retinopathy.” 与彩色眼底成像技术相比,OCT可以获取更详细的视网膜结构信息,成为视网膜病变临床观察的主要方式。
诊疗指标
“Both OCT and OCTA can provide 3D data, but m ...
医学图像中的血管分割
从去年11月的肺血管分割开始,到现在的眼底血管,一起整理一下!
肺部血管 [肺部血管分割]
这里paperwithcode网站的“肺”的英文都弄错了,肺-pulmonary
数据集
VESSEL12 https://paperswithcode.com/dataset/vessel12
ISICDM2020挑战赛 https://svyj.github.io/2020/11/04/ISICDM2020/
SOTA模型小结眼底OCT血管 [眼底血管分割]数据集
DRIVE https://paperswithcode.com/dataset/drive
CHASE https://paperswithcode.com/dataset/chase-db1
STARE https://paperswithcode.com/dataset/stare
HRF https://paperswithcode.com/dataset/hrf (这个数据集做的太少了,可以忽略不计)
SOTA模型
ResU-Net
R2U-Net
DU-Net
LadderNet
IterNet
BC ...
Transformer系列的简单整理(挖坑)
什么是Transformer?Attention MechanismSelf AttentionMulti-Head AttentionTransformerPaper: Attention is not all you need: pure attention loses rank doubly exponentially with depth[NeurIPS 2017]
Vision TransformerViTPaper: An Image Is Worth 16X16 Words: Transformers for Image Recognition at Scale[ICLR 2021]
DETRCrossViTPaper: CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image Classificatio
MViTPaper: Multiscale Vision TransformerCodes: https://github.com/facebookresearch/SlowFast/tree ...