Route
Contact Bet365
2026-01-15 04:11:21
Bet365 - Online Sports Betting(访问: hash.cyou 领取999USDT)
根据作者举得简单的例子的启发,我们可以把intervention的应用场景搬到了object detection任务中,并为intervention设计了一个proxy task:给定RoI X的feature去预测RoI Y的类别。我们知道周围的视觉世界是由很多物体组成的,其中也包括很多潜在的混杂因子,如果直接预测周围物体Y就不可避免的会被上文提到的混杂因子confounder所影响。根据我们刚刚介绍的“do算子”的理论,解决的办法也不难,只要能找到confounder然后对他们使用backdoor理论进行控制即可。那在我们这一套proxy task里面,混杂因子是什么呢?很明显,就像我举的例子里面说的,也一定是object。直觉上来说我们直接把整个数据集上的object RoI特征在每个类别上取平均,当作这个类别的表示,进而构建出一个类别数x1024的confounder字典作为Z(比如MSCOCO有80类,就是80x1024),它包含着所有可能的混杂因子。注意!这里的预测和以前object detection做的预测其实是有一定区别的,在这里我们强调加入causal intervention的预测是更加鲁棒的预测,我们希望能更加准确的度量X与周围物体之间的因果关系。
注意:作者提出的VC R-CNN的实现和原先的Faster R-CNN相比,去除了RPN网络(Region Proposal Network),不再训练网络propose边界框,而是直接将数据集ground-truth的bounding box坐标输入到其中,直接提取region的特征。而在训练完成后的feature提取阶段,相对应的,只要给定图片和bounding box坐标,都可以获得对应的VC特征。就这样,我们利用bottomup特征已有的边界框坐标提取VC特征后,将其并在先前的bottomup特征上作为新的特征。我们在传统的 Vision&Language 三大任务上挑选了经典model和SOTA model进行了测试,发现在各个任务上都取得了明显的提升,尤其是在image captioning上的提升尤其大。同时为了验证性能的提升不是由于参数增多带来的,我们还在原有特征上并上了ablative的特征(单独object特征,用correlation计算的特征),具体可以参考我们的论文的实验部分。
搜索您想要找的内容!
地址:广东省广州市 电话:HASHKFK 手机:HASHKFK
Copyright © 2012-2024 Bet365户外滑雪培训设备有限公司 版权所有 非商用版本 ICP备案编号: