Conv2Former阅读记录
Conv2Former阅读记录摘要 simplify the self-attention by leveraging a convolutional modulation operation. 通过卷积调制操作简化自注意力机制。
主要内容 Models like ResNet mostly aggregate responses with large receptive fields by stacking multiple building blocks and adopting the pyamid network architecture but neglect the importance of explicitly modeling the global contextual information.像ResNet 这样的模型大多通过堆叠多个构建块和采取金字塔结构来获得大的感受野,但是这会忽略一个重要点:直接获得全局语境信息 。
SENet introduce attention-based mechanisms into CNN ...
初步接触教员
2024年以前,我不知什么是资本主义,不知什么是共产主义,不知道社会主义国家和资本主义国家的区别,也很少关注国际上的事情,是个跟随网络舆论,容易听信他人的人。
在2024年时,大概是内心急需一个方向,一个思想来填充自己贫瘠的精神世界,意外地接触到许多宣传赞美教员的内容,自己也就开始好奇教员这个人了,当时只买了两本毛选,想着看看到底有什么魔力,值得这么多人崇敬他。
初读毛选第一卷的《中国社会各阶级的分析》时,我被教员通俗易懂,条理清晰的文字所折服,他所写的,很多都是我从未想到过的。我惊叹于他能清楚地写出不同阶级之间的区别和联系,直击要害。“谁是我们的敌人?谁是我们的朋友?这个问题是革命的首要问题。”这句话是大众所熟知的,我佩服他能开门见山地指出这个关键问题,他这句话,在我看来是十分有道理的,要团结真正的朋友,攻击真正得到敌人,这也是能运用到如今的学习或生活上的。这篇文章我读了三次,却依然不是大懂,我认为是自身没有在社会中深入实践,不能体会究竟哪种人属于哪种阶级。
后来又读了大名鼎鼎的《矛盾论》和《实践论》,自此开始了我对于 ...
多标签图像分类评价指标
多标签图像分类评价指标
mAP(mean average precision平均准确率均值)mAP 是取所有标签计算得到的AP的平均,AP(Averge Precision ) 就是计算PR 曲线的面积,而PR(Precision Recall) 曲线就是纵坐标是Precision, 横坐标是 Recall 所构成的曲线。
Precision 和 Recall 分子相同,都是预测正确的正样本(TP)其计算公式分别为
$Precision = \frac{TP}{TP+FP}$ (查准率)
预测正确的正样本数量占所有预测为正样本的比值。 当 Precision 为 0 时,可能意味着预测的正样本都是错误的,当 Precision为 1 时,意味着预测的正样本都是正确的,但不代表所有的正样本都被预测出来,FP 为 0。
$Recall = \frac{TP}{TP+FN}$ (查全率)
预测正确的正样本数量占所有真实正样本数量的比值 。当 Recall 为1时,所有的正样本都被预测出来,但也可能是因为模型预测的样本全为 正样本,这样 FN 就为0 ,但这种模型是没 ...
无题
第一章 计算机系统结构的基本概念考点1.1:计算机系统结构的概念,特别是层次结构。计算机系统结构概念的实质是确定计算机系统中软、硬件的界面,界面之上是软件实现的功能,界面之下是硬件和固件实现的功能。
从计算机语言的角度
L6应用语言虚拟机
计算机满足某种用途专门设计,程序由应用程序包翻译到L5
L5 高级语言虚拟机
C/C++等,程序由编译器翻译到L4或L3上
L4汇编语言虚拟机
程序由汇编程序翻译成L2和L3上的语言,再由相应计算机实现
L3 操作系统虚拟机
指令集由传统机器级指令和操作系统级指令组成,程序在L2和L3解释执行
L2 传统机器级
程序在L1的微程序上解释执行,由微程序解释指令集的过程又称为仿真
L1 微程序机器级
计算机硬件设计人员编写微指令由硬件解释实现
L1-L3是用解释的方式实现,L4-L6则是用翻译 的方式实现
翻译和解释的区别
翻译是指把L(i+1)程序全部转化为L(i)程序,然后去执行新产生的L(i)程序,L(i+1)程序不会再被访问
解释是每当一条L(i+1)指令被译码后,就去执行一串等效的L(i)指令,然后再去 ...
人工智能初步学习
人工智能期末复习人工智能绪论人工智能定义人工智能是研究、开发用于模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新技术科学。
人工智能、基因工程、纳米科学被认为是21世纪的3大尖端技术。
人工智能发展历史
1956,达特茅斯会议中,AI一词诞生
1970-1980,大规模数据和复杂任务不能完成,计算能力无法突破(低谷)
1982后,神经网络+5代计算机(专家系统)
1990-2000,DARPA无法实现,政府投入缩减(低谷)
2006-至今,突破性进展,进入发展热潮(深度学习)
人工智能数学基础导数假设函数 y = f(x) 在某个区间上的导数存在,则在此区间上某点x1
导数是用于研究函数在某一点附近的局部性质,用以刻画曲线或曲面的弯曲程度。
复合计算:
高阶导数:导数 y’=f’(x) 仍是 x 的函数,可对导函数再次求导。
函数f(x)的泰勒展开式:
常用的泰勒展开
概率论基础矩阵基础搜索搜索技术是问题求解的主要手段之一
搜索问题定义:可以用6个组成部分来形式化描述:
状态空间S:所有可以的状态集合
初始状态S0:系统的初始状态
动作状 ...
图像分割论文学习
从暑假开始阅读论文的,大多数是和医学图像分割相关的,在这里做一个记录和总结。CE-Net(CVPR)[1903.02740] CE-Net: Context Encoder Network for 2D Medical Image Segmentation (arxiv.org)
网络框架
SLEX-Net(JBHI)Hematoma Expansion Context Guided Intracranial Hemorrhage Segmentation and Uncertainty Estimation | IEEE Journals & Magazine | IEEE Xplore
UNet++[1807.10165] UNet++: A Nested U-Net Architecture for Medical Image Segmentation (arxiv.org)
TransUNet(CVPR)[2102.04306v1] TransUNet: Transformers Make Strong Encoders for Medical Image Segmen ...
论文学习
Attention U-Net:摘要
提出新的关住门(AG)模型,
IHA-Unet介绍
(First of all,as the complexity of brain structure, the feature of ICH is very similar to that of skull, which brings interference to both feature extraction and segmentation.)ICH 的特征与颅骨的特征非常相似,这会给特征的提取和分割带来干扰。
(Additionally, the location and size of cerebral hemmorrhage lesions on CT images are varible,which further reduces the accuracy of segmentation, for example, the erea of intraventricular hemorrhage is long strip and slightly low density, whi ...
MT-UNet论文学习
摘要
指出U-Net在医学图像分割任务有巨大成功,但模型缺乏远程依赖能力
transformer 固有的self-attention模块能够拥有捕获远程相关性的能力,但transformer 通常依赖于大规模的预训练,并且有很高的计算复杂度,并且,self-attention 只能对单个样本的自注意力建模,忽略了整个数据集的潜在相关性
提出一个新的transformer模块MTM,用于同时进行样本内部和样本之间注意力学习;MTM首先通过精心设计的局部-全局高斯加自注意(LGG-SA)有效地计算注意力,然后通过外部注意EA挖局样本之间的相互联系
在MTM基础上,构建一个U型混合tansformer的MT-UNet模型,用于医学图像的精准分割
代码:https://github.com/Dootmaan/MT-UNet
介绍 U-Net面临所有CNN都面临的问题:缺乏建模远程相关性的能力,主要是因为卷积运算的固有局部性。许多研究尝试用Transformer来解决这个问题。self-attention 是transformer 的关键组成部分,它可以对输入的toke ...
TranUNet学习
摘要
由于卷积运算的固有局部性,U-Net 通常在显示建模长期依赖关系方面表现出局限性(卷积运算的固有局部性:卷积运算只能捕捉到输入数据中相邻区域之间的关系,这个区域大小取决于卷积核大小,这种局部性使得卷积神经网络能够很好地处理图像等具有局部相关性的数据,但也限制了它在处理远程依赖关系方面的能力。比如,一个像素的标签可能和它周围很远的像素有关,但卷积神经网络可能难以捕捉到这种远程依赖关系;虽然U-Net通过层次的堆叠来扩大感受野,但U-Net 仍然可能在长期依赖关系方面表现出局部性)
Transformer具有全局的自注意力机制,但由于缺乏低层次细节,可能导致定位能力有限(低层次细节捕捉:可以通过卷积神经网络的下采样来扩大感受野,从而来捕捉到图像中的纹理、边缘和颜色变化等信息;定位能力有限:模型不能捕捉到图像的边缘信息,它很难准确地划分不同的物体)
提出了TransUNet,它兼有transformer和U-Net的优点,作为医学图像分割的强大替代方案。Transformer对来自卷积神经网络(CNN)特征映射的标记化图像补丁进行编码,作为提取全局上下文的输入序列;解码器对编码特征 ...
语义分割的指标
语义分割:像素级别的分类常用的评价指标:
像素准确率(PA)
类别像素准确率(CPA)
类别平均像素准确率(MPA)
交并比(IoU)
平均交并比(MIoU)
混淆矩阵定义:混淆矩阵就是统计分类模型的分类结果。统计归对类,归错类的样本的个数,然后把结果放在一个表里展示出来
准确率(Accuracy),对应:语义分割的像素准确率 PA公式:Accuracy = (TP + TN) / (TP + TN + FP + FN)意义:对角线计算。预测结果中正确的占总预测值的比例(对角线元素值的和 / 总元素值的和)
精准率(Precision),对应:语义分割的类别像素准确率 CPA公式:Precision = TP / (TP + FP) 或 TN / (TN + FN)意义:竖着计算。预测结果中,某类别预测正确的概率
召回率(Recall),不对应语义分割常用指标公式:Recall = TP / (TP + FN) 或 TN / (TN + FP)意义:横着计算。真实值中,某类别被预测正 ...