查看: 604|回复: 0

机器学习方向20191011

[复制链接]

机器学习方向20191011

1234 发表于 2019-10-18 04:48:04 浏览:  604 回复:  0 [显示全部楼层] 复制链接

关注即可获取arXiv每日论文自动推送;
如果您有任何问题或建议,请公众号留言。
[如果您觉得本公众号对你有帮助,就是我们最大的荣幸]
今日 cs.LG方向共计93篇文章。

Graph(2篇)

[1]:An Anatomy of Graph Neural Networks Going Deep via the Lens of Mutual  Information: Exponential Decay vs. Full Reservation
标题:从互信息的角度深入剖析图神经网络:指数衰减与完全保留
作者:Nezihe Merve Gürel, Hansheng Ren, Yujing Wang, Hui Xue, Yaming Yang, Ce Zhang
备注:19 pages, 6 figures, 6 tables
链接:https://arxiv.org/abs/1910.04499

摘要:Graph Convolutional Network (GCN) has attracted intensive interests recently. One major limitation of GCN is that it often cannot benefit from using a deep architecture, while traditional CNN and an alternative Graph Neural Network architecture, namely GraphCNN, often achieve better quality with a deeper neural architecture. How can we explain this phenomenon? In this paper, we take the first step towards answering this question. We first conduct a systematic empirical study on the accuracy of GCN, GraphCNN, and ResNet-18 on 2D images and identified relative importance of different factors in architectural design. This inspired a novel theoretical analysis on the mutual information between the input and the output after l GCN and GraphCNN layers. We identified regimes in which GCN suffers exponentially fast information lose and show that GraphCNN requires a much weaker condition for similar behavior to happen.

[2]:Graph Spectral Embedding for Parsimonious Transmission of Multivariate  Time Series
标题:多元时间序列简约传输的图谱嵌入
作者:Lihan Yao, Paul Bendich
链接:https://arxiv.org/abs/1910.04689

摘要:提出了一种时间序列数据的图谱表示方法:1)以用户要求的分辨率进行简约编码;2)在数据约束的场景中无监督和执行;3)捕获时间序列中的事件和事件转移结构;4)在信号长度和环境维数上都具有近似线性的计算复杂度。这种表示法,我们称之为拉普拉斯事件信号分割法(LESS),它可以在任意维的时间序列上计算,并且来源于任意类型的传感器。因此,来自异类传感器的时间序列在融合到一个公共中心之前,可以被压缩到受限通信环境所要求的水平。
在没有明确划分或概率建模的情况下,总结了数据的时间动态。作为原理证明,我们将此技术应用于从自由口语数字数据集计算出的高维小波系数,以生成可解释的内存有效表示。由于其无监督性和非参数性,在数字分类任务中,尽管没有标签和有限的数据,但仍有较少的表现形式。
对抗样本/GAN(7篇)

[1]:Defending Neural Backdoors via Generative Distribution Modeling
标题:基于生成分布模型的神经后门防御
作者:Ximing Qiao, Yukun Yang, Hai Li
链接:https://arxiv.org/abs/1910.04749

摘要:神经后门攻击是对深度学习的严重安全威胁,而现有的防御方法能力有限,特别是对于复杂的后门触发器。在这项工作中,我们探索由所有可能的后门触发器的像素值形成的空间。攻击者用于构建后门模型的原始触发器仅表示空间中的一个点。然后将其推广为有效触发器的分布,所有这些都会影响后门模型。因此,以前仅对触发器分布的一个点建模的方法是不够的。获得整个触发分布,例如通过生成性建模,是有效防御的关键。然而,现有的图像生成生成建模技术并不适用于后门场景,因为触发器分布是完全未知的。本文提出了一种高维无采样生成模型的最大熵阶梯逼近算法(MESA),并用它来恢复触发分布。我们还开发了一种防御技术来移除后门模型中的触发器。我们在Cifar10数据集上的实验证明了MESA对触发器分布建模的有效性和所提出防御方法的鲁棒性。

[2]:Comparison of Generative Adversarial Networks Architectures Which Reduce  Mode Collapse
标题:减少模式崩溃的生成性对抗网络体系结构比较
作者:Yicheng, Hong
链接:https://arxiv.org/abs/1910.04636

摘要:生成性对抗网络以其高质量的输出和多功能性而闻名。然而,它们的输出数据分布也会发生模式崩溃。在改造GANs模式和减少模式崩溃方面已经做了很多努力。本文主要研究其中的两个模型,PacGAN和VEEGAN。本文解释了上述模型背后的数学理论,并以MNIST数字作为输入数据,比较了它们与vanilla GAN的模折叠程度。结果表明,PacGAN的模折叠性能略优于vanilla GAN,VEEGAN的模折叠性能比PacGAN和vanilla GAN差。VEEGAN性能不佳的原因可能是其目标函数的平均自动编码器损耗和对模糊特征的较小惩罚。

[3]:Rate-Distortion Optimization Guided Autoencoder for Generative Approach  with quantitatively measurable latent space
标题:基于率失真优化的潜在空间可量化生成方法自编码器
作者:Keizo Kato, Jing Zhou, Akira Nakagawa
链接:https://arxiv.org/abs/1910.04329

摘要:在机器学习的生成模型方法中,为了便于处理,必须获得精确的概率模型并压缩数据的维数。然而,在传统的基于深度自编码的生成模型VAE中,由于两个空间之间的尺度不受控制,无法从潜在空间的概率中正确地获得真实空间的概率。这也是量化潜在变量变化对数据影响的一个障碍。本文提出了一种率失真优化引导的自编码器,其中实空间到隐空间的雅可比矩阵具有正态性。从理论和实验上证明了:(1)由于两个空间之间的雅可比常数,该模型得到的潜空间的概率分布与实空间的概率分布成正比;(2)我们的模型表现为非线性主元分析,其中所获得的潜空间能量集中在主成分和各成分的影响可以定量评价。此外,为了验证该方法在实际应用中的有效性,我们对其在无监督异常检测中的性能进行了评估,其性能优于目前的最新方法。

[4]:Adversarial Training: embedding adversarial perturbations into the  parameter space of a neural network to build a robust system
标题:对抗训练:将对抗扰动嵌入神经网络的参数空间,建立一个鲁棒系统
作者:Shixian Wen, Laurent Itti
链接:https://arxiv.org/abs/1910.04279

摘要:Adversarial training, in which a network is trained on both adversarial and clean examples, is one of the most trusted defense methods against adversarial attacks. However, there are three major practical difficulties in implementing and deploying this method - expensive in terms of extra memory and computation costs; accuracy trade-off between clean and adversarial examples; and lack of diversity of adversarial perturbations. Classical adversarial training uses fixed, precomputed perturbations in adversarial examples (input space). In contrast, we introduce dynamic adversarial perturbations into the parameter space of the network, by adding perturbation biases to the fully connected layers of deep convolutional neural network. During training, using only clean images, the perturbation biases are updated in the Fast Gradient Sign Direction to automatically create and store adversarial perturbations by recycling the gradient information computed. The network learns and adjusts itself automatically to these learned adversarial perturbations. Thus, we can achieve adversarial training with negligible cost compared to requiring a training set of adversarial example images. In addition, if combined with classical adversarial training, our perturbation biases can alleviate accuracy trade-off difficulties, and diversify adversarial perturbations.

[5]:Out-of-distribution Detection in Classifiers via Generation
标题:基于生成的分类器分布外检测
作者:Sachin Vernekar, Ashish Gaurav, Vahdat Abdelzad, Taylor Denouden, Rick Salay, Krzysztof Czarnecki
备注:NeurIPS 2019, Safety and Robustness in Decision Making Workshop
链接:https://arxiv.org/abs/1910.04241

摘要:By design, discriminatively trained neural network classifiers produce reliable predictions only for in-distribution samples. For their real-world deployments, detecting out-of-distribution (OOD) samples is essential. Assuming OOD to be outside the closed boundary of in-distribution, typical neural classifiers do not contain the knowledge of this boundary for OOD detection during inference. There have been recent approaches to instill this knowledge in classifiers by explicitly training the classifier with OOD samples close to the in-distribution boundary. However, these generated samples fail to cover the entire in-distribution boundary effectively, thereby resulting in a sub-optimal OOD detector. In this paper, we analyze the feasibility of such approaches by investigating the complexity of producing such "effective" OOD samples. We also propose a novel algorithm to generate such samples using a manifold learning network (e.g., variational autoencoder) and then train an n+1 classifier for OOD detection, where the $n+1^{th}$ class represents the OOD samples. We compare our approach against several recent classifier-based OOD detectors on MNIST and Fashion-MNIST datasets. Overall the proposed approach consistently performs better than the others.

[6]:Machine learning driven synthesis of few-layered WTe2
标题:机器学习驱动的多层WTe2综合
作者:Manzhang Xu, Bijun Tang, Chao Zhu, Yuhao Lu, Chao Zhu, Lu Zheng, Jingyu Zhang, Nannan Han, Yuxi Guo, Jun Di, Pin Song, Yongmin He, Lixing Kang, Zhiyong Zhang, Wu Zhao, Cuntai Guan, Xuewen Wang, Zheng Liu
链接:https://arxiv.org/abs/1910.04603

摘要:将二维(2D)材料的横向尺度缩小到一维(1D)材料,不仅对实现具有竞争力的电子器件应用,而且对探索基本物理性质也具有重要的研究意义。因此,高质量一维纳米带(NRs)的可控合成是非常理想的,也是进一步研究的必要条件。传统的探索新材料最佳合成条件的方法是基于试错法,费时、费钱、费力。近年来,机器学习(ML)通过有效地从过去的数据中学习并提出建议,在指导材料合成方面显示出了良好的性能。在这里,我们报告了用于化学气相沉积(CVD)合成高质量的一维层状WTe2纳米带(NRs)的监督ML的实现。利用训练的ML模型对WTe2-NRs的合成参数进行了优化。在此基础上,进一步提出了所合成的1T'多层WTe2-NRs的生长机理,为其它1D纳米结构的生长提供了新的思路。我们的发现表明,ML是一种有效的辅助一维纳米结构合成的方法,为智能材料的发展开辟了新的机遇。

[7]:Prescribed Generative Adversarial Networks
标题:规定的生成性对抗网络
作者:Adji B. Dieng, Francisco J. R. Ruiz, David M. Blei, Michalis K. Titsias
备注:Code for this paper can be found atthis https URL
链接:https://arxiv.org/abs/1910.04302

摘要:生成性对抗网络(GANs)是一种有效的无监督学习方法。他们在图像领域取得了最先进的表现。然而,甘斯在两个方面受到限制。他们通常在低支持度的情况下学习分布,这种现象被称为模式崩溃,并且他们不能保证概率密度的存在,这使得用预测对数似然来评估泛化是不可能的。本文针对这些缺点,提出了一种专用GAN(PresGAN)。预测器在密度网络的输出中加入噪声,优化熵正则化的对抗损失。增加的噪声使预测对数似然的逼近变得容易处理,并且使训练过程稳定。熵正则化器鼓励PresGANs捕捉数据分布的所有模式。拟合预测涉及到计算熵正则化项的难处理梯度;预测使用无偏随机估计避开了这一难处理性。我们对多个数据集的预感进行了评估,发现预感可以缓解模式崩溃,并生成具有高感知质量的样本。我们进一步发现,在预测对数似然方面,预测器减小了传统的预测器和变分自编码器(VAEs)在性能上的差距。
弱/半/无监督(1篇)

[1]:PAC-Bayesian Contrastive Unsupervised Representation Learning
标题:PAC贝叶斯对比无监督表示学习
作者:Kento Nozawa, Pascal Germain, Benjamin Guedj
链接:https://arxiv.org/abs/1910.04464

摘要:对比无监督表示学习(CURL)是从无标记数据中学习表示(作为一组特征)的最新技术。虽然CURL最近已经取得了一些经验上的成功,但对其性能的理论理解仍然缺失。在最近的一项研究中,Arora等人(2019)根据Rademacher复杂性,提供旋度的第一个一般化界限。我们将他们的框架扩展到灵活的PAC Bayes设置,允许处理非iid设置。提出了旋度的PAC-Bayesian广义界,并以此为基础推导了一种新的表示学习算法。在实际数据集上的数值实验表明,我们的算法达到了竞争精度,并且得到了非空值的广义界。
Zero/One-Shot、迁移学习、Domain Adaptation(4篇)

[1]:Efficient Intrinsically Motivated Robotic Grasping with  Learning-Adaptive Imagination in Latent Space
标题:潜在空间中具有学习自适应想象的高效内驱机器人抓取
作者:Muhammad Burhan Hafez, Cornelius Weber, Matthias Kerzel, Stefan Wermter
备注:In: Proceedings of the Joint IEEE International Conference on Development and Learning and on Epigenetic Robotics (ICDL-EpiRob), Oslo, Norway, Aug. 19-22, 2019
链接:https://arxiv.org/abs/1910.04729

摘要:将基于模型和无模型的深度强化学习相结合,在保持高性能的同时,对提高复杂控制任务的采样效率具有重要的意义。结合想象力是最近在这个方向上的一项努力,灵感来自人类对运动行为的心理模拟。我们提出了一种学习适应性想象方法,不同于以往的方法,它考虑了用于想象未来的学习动力学模型的可靠性。我们的方法在潜在空间中学习一组不相交的局部动力学模型,并根据学习进度获得内在奖励,激励控制器采取行动,产生改进模型的数据。学习的模型被用来产生想象的经验,增加了真实经验的训练集。我们对基于视觉的机器人抓取学习方法进行了评估,结果表明,该方法显著提高了样本效率,在稀疏奖赏环境下达到了接近最优的性能。

[2]:Estimating Transfer Entropy via Copula Entropy
标题:利用Copula熵估计传递熵
作者:Ma Jian
链接:https://arxiv.org/abs/1910.04375

摘要:因果推理是统计学中的一个基本问题,在不同领域有着广泛的应用。传递熵(TE)是度量因果关系的一个重要概念,本质上是条件互信息(MI)。Copula熵(ce)是一种统计独立性度量理论,等价于MI。本文证明了TE只能用ce表示,并提出了一种利用ce估计TE的非参数方法。应用该方法对北京市PM2.5数据进行了实验分析。实验结果表明,该方法能有效地从数据中推断出因果关系,有助于更好地理解数据。

[3]:On the adequacy of untuned warmup for adaptive optimization
标题:自适应优化中非调谐热身的充分性
作者:Jerry Ma, Denis Yarats
备注:Technical report
链接:https://arxiv.org/abs/1910.04209

摘要:Adaptive optimization algorithms such as Adam (Kingma & Ba, 2014) are widely used in deep learning. The stability of such algorithms is often improved with a warmup schedule for the learning rate. Motivated by the difficulty of choosing and tuning warmup schedules, Liu et al. (2019) propose automatic variance rectification of Adam's adaptive learning rate, claiming that this rectified approach ("RAdam") surpasses the vanilla Adam algorithm and reduces the need for expensive tuning of Adam with warmup. In this work, we point out various shortcomings of this analysis. We then provide an alternative explanation for the necessity of warmup based on the magnitude of the update term, which is of greater relevance to training stability. Finally, we provide some "rule-of-thumb" warmup schedules, and we demonstrate that simple untuned warmup of Adam performs more-or-less identically to RAdam in typical practical settings. We conclude by suggesting that practitioners stick to linear warmup with Adam, with a sensible default being linear warmup over $2 / (1 - \beta_2)$ training iterations.

[4]:First Order Ambisonics Domain Spatial Augmentation for DNN-based  Direction of Arrival Estimation
标题:基于DNN的波达方向估计的一阶双音域空间增强
作者:Luca Mazzon, Yuma Koizumi, Masahiro Yasuda, Noboru Harada
备注:5 pages, to appear in DCASE 2019
链接:https://arxiv.org/abs/1910.04388

摘要:In this paper, we propose a novel data augmentation method for training neural networks for Direction of Arrival (DOA) estimation. This method focuses on expanding the representation of the DOA subspace of a dataset. Given some input data, it applies a transformation to it in order to change its DOA information and simulate new potentially unseen one. Such transformation, in general, is a combination of a rotation and a reflection. It is possible to apply such transformation due to a well-known property of First Order Ambisonics (FOA). The same transformation is applied also to the labels, in order to maintain consistency between input data and target labels. Three methods with different level of generality are proposed for applying this augmentation principle. Experiments are conducted on two different DOA networks. Results of both experiments demonstrate the effectiveness of the novel augmentation strategy by improving the DOA error by around 40%.
强化学习(4篇)

[1]:Hierarchical Reinforcement Learning with Advantage-Based Auxiliary  Rewards
标题:基于优势的辅助奖励分层强化学习
作者:Siyuan Li, Rui Wang, Minxue Tang, Chongjie Zhang
备注:Camera ready version for NeurIPS 2019
链接:https://arxiv.org/abs/1910.04450

摘要:分层强化学习(HRL)是一种很有前途的解决具有稀疏和延迟回报的长时间问题的方法。许多现有的HRL算法要么使用预先训练的不可适应的低级技能,要么需要特定领域的信息来定义低级奖励。在本文中,我们的目标是使低层次的技能适应下游任务,同时保持奖励设计的通用性。我们提出了一个基于高层政策优势功能的人力资源管理框架,为低层技能培训设置辅助奖励。这种辅助奖励可以在不使用特定于任务的知识的情况下,高效、同步地学习高级策略和低级技能。此外,我们还从理论上证明,利用这种辅助奖励来优化低水平技能,将提高联合策略的任务回报率。实验结果表明,该算法在Mujoco域的性能明显优于其他最新的HRL方法。我们还发现由我们的算法训练的低层和高层策略都是可转移的。

[2]:Integrating Behavior Cloning and Reinforcement Learning for Improved  Performance in Sparse Reward Environments
标题:整合行为克隆与强化学习以改善稀疏奖励环境下的绩效
作者:Vinicius G. Goecks, Gregory M. Gremillion, Vernon J. Lawhern, John Valasek, Nicholas R. Waytowich
备注:9 pages, 3 Figures
链接:https://arxiv.org/abs/1910.04281

摘要:本文研究了如何有效地转换和更新策略,使用非策略参与者-批评者强化学习进行初步的示范训练。众所周知,基于从演示中学习的技术,例如行为克隆,在数据有限的情况下可以导致熟练的策略。然而,目前尚不清楚如何使用强化学习有效地更新该策略,因为这些方法本质上优化了不同的目标函数。先前的研究已经使用了将行为克隆损失和强化学习损失结合起来的损失函数来实现这一更新,但是,这些损失函数的组成部分通常是以轶事的方式设置的,并且它们的个人贡献并没有被很好地理解。在这项工作中,我们提出了一个学习周期(CoL)框架,该框架使用了一个带有损失函数的actor-critic架构,将行为克隆和一步q-learning损失与来自人类演示的非策略预训练步骤结合起来。这使得从行为克隆到强化学习的转变不会导致性能下降,并从整体性能和训练时间方面改进强化学习。此外,我们还仔细研究了这些综合损失的构成及其对整体政策学习的影响。我们的方法在结合行为克隆和强化学习的高密度和稀疏奖励场景中都优于最新技术。我们的研究结果还表明,直接将行为克隆损失包含在演示数据中有助于确保稳定的学习和未来的策略更新。

[3]:Defensive Escort Teams via Multi-Agent Deep Reinforcement Learning
标题:基于多智能体深度强化学习的护卫队
作者:Arpit Garg, Yazied A. Hasan, Adam Yañez, Lydia Tapia
备注:IEEE Robotics and Automation Letters with International Conference on Robotics and Automation (ICRA) option, 2020, under review
链接:https://arxiv.org/abs/1910.04537

摘要:Coordinated defensive escorts can aid a navigating payload by positioning themselves in order to maintain the safety of the payload from obstacles. In this paper, we present a novel, end-to-end solution for coordinating an escort team for protecting high-value payloads. Our solution employs deep reinforcement learning (RL) in order to train a team of escorts to maintain payload safety while navigating alongside the payload. This is done in a distributed fashion, relying only on limited range positional information of other escorts, the payload, and the obstacles. When compared to a state-of-art algorithm for obstacle avoidance, our solution with a single escort increases navigation success up to 31%. Additionally, escort teams increase success rate by up to 75% percent over escorts in static formations. We also show that this learned solution is general to several adaptations in the scenario including: a changing number of escorts in the team, changing obstacle density, and changes in payload conformation. Video:this https URL.

[4]:Linear-Quadratic Mean-Field Reinforcement Learning: Convergence of  Policy Gradient Methods
标题:线性二次平均场强化学习:策略梯度法的收敛性
作者:René Carmona, Mathieu Laurière, Zongjun Tan
链接:https://arxiv.org/abs/1910.04295

摘要:研究了离散时间平均场控制问题的强化学习问题,它可以看作是大量可交换主体以平均场方式相互作用的Markov决策过程。例如,当大量的机器人通过一个中心单元进行通信时,就会产生这样的问题,该中心单元通过最小化总体社会成本来分配计算出的最优策略。通过学习一般智能体与其他智能体状态的统计分布相互作用的最优策略,得到了一个近似解。在均场线性二次型情形下,我们严格证明了精确和无模型策略梯度方法的收敛性。我们还提供了基于算法实现的收敛性的图形证据。
主动学习(1篇)

[1]:Active Learning with Importance Sampling
标题:重要抽样的主动学习
作者:Muni Sreenivas Pydi, Vishnu Suresh Lokhande
备注:NeurIPS 2019 Workshop on Machine Learning with Guarantees, Vancouver, Canada
链接:https://arxiv.org/abs/1910.04371

摘要:我们考虑一个主动学习环境,其中算法可以访问一个大的未标记数据池和一个小的标记数据池。在每次迭代中,该算法选择少量未标记的数据点,并从oracle中获取它们的标记。在本文中,我们考虑了一个概率查询过程来选择要标记的点。提出了一种具有重要抽样的主动学习算法(ALIS),推导了该算法对任意概率抽样过程的真实损失的上界。进一步,我们提出了一个最优的抽样分布,使真实损失的上界最小。
Neural Networks(9篇)

[1]:Using Neural Networks for Programming by Demonstration
标题:神经网络在演示式编程中的应用
作者:Karan K. Budhraja, Hang Gao, Tim Oates
链接:https://arxiv.org/abs/1910.04724

摘要:Agent-based modeling is a paradigm of modeling dynamic systems of interacting agents that are individually governed by specified behavioral rules. Training a model of such agents to produce an emergent behavior by specification of the emergent (as opposed to agent) behavior is easier from a demonstration perspective. Without the involvement of manual behavior specification via code or reliance on a defined taxonomy of possible behaviors, the demonstrator specifies the desired emergent behavior of the system over time, and retrieves agent-level parameters required to execute that motion. A low time-complexity and data requirement favoring framework for reproducing emergent behavior, given an abstract demonstration, is discussed in [1], [2]. The existing framework does, however, observe an inherent limitation in scalability because of an exponentially growing search space (with the number of agent-level parameters). Our work addresses this limitation by pursuing a more scalable architecture with the use of neural networks. While the (proof-of-concept) architecture is not suitable for many evaluated domains because of its lack of representational capacity for that domain, it is more suitable than existing work for larger datasets for the Civil Violence agent-based model.

[2]:Model-free prediction of spatiotemporal dynamical systems with recurrent  neural networks: Role of network spectral radius
标题:基于递归神经网络的时空动力系统无模型预测:网络谱半径的作用
作者:Junjie Jiang, Ying-Cheng Lai
备注:15 pages, 13 figures
链接:https://arxiv.org/abs/1910.04426

摘要:机器学习应用中的一个常见困难是缺乏指导神经网络关键参数选择的一般原则。针对一类递归神经网络——最近被用于非线性动力系统无模型预测的储层计算系统,我们发现了一个令人惊讶的现象:在神经网络的谱半径中出现了一个区间,在此区间内预测误差最小。在误差对时间和谱半径的三维表示中,区间对应于“谷”的底部区域。这种谷出现在由非线性偏微分方程描述的各种时空动力系统中,而与下垫的结构和边权分布无关水库网络。我们还发现,当山谷的特定位置和大小取决于要预测的目标系统的细节时,无向网络的间隔往往大于有向网络的间隔。河谷现象有助于水库优化计算的设计,代表着在理解这些机器学习系统方面向前迈出了一小步。

[3]:Improved Sample Complexities for Deep Networks and Robust Classification  via an All-Layer Margin
标题:改进的深网络样本复杂度和基于全层边缘的稳健分类
作者:Colin Wei, Tengyu Ma
链接:https://arxiv.org/abs/1910.04284

摘要:对于线性分类器,输出裕度和泛化之间的关系被捕获在一个清晰而简单的范围内——较大的输出裕度意味着良好的泛化。不幸的是,对于深度模型,这种关系还不太清楚:现有的输出裕度分析给出了复杂的边界,有时它与深度成指数关系。在这项工作中,我们提出了一个新的边缘概念,我们称之为“全层边缘”,我们的分析表明,全层边缘与深度模型的推广有着明确而直接的关系。这使得全层裕度的具体应用得以实现:1)通过对全层裕度的分析,得到了依赖于Jacobian和隐层范数的神经网络更为严格的泛化界,消除了对深度的指数依赖;2)神经网络的结果很容易转化为对侧的鲁棒设置,给出了首先直接分析了深网络的鲁棒测试误差,3)提出了一种理论启发下的提高全层裕度的训练算法,并在实际应用中证明了该算法在强基线下提高了测试性能。

[4]:Membership Model Inversion Attacks for Deep Networks
标题:深网络的隶属度模型反演攻击
作者:Samyadeep Basu, Rauf Izmailov, Chris Mesterharm
备注:NeurIPS 2019, Workshop on Privacy in Machine Learning
链接:https://arxiv.org/abs/1910.04257

摘要:随着人工智能的日益普及,人们发现了机器学习系统固有的安全和隐私漏洞。其中一个漏洞使得对手能够获取用于训练目标机器学习模型的实例类型的私有信息。这种所谓的模型逆攻击是基于对分类分数的顺序利用,以获得不同类别的高置信度表示。但是,对于深度网络,这种过程通常会导致无法识别的表示,而这些表示对于对手来说是无用的。在本文中,我们引入了一个更真实的模型反转定义,对手知道attackedmodel的一般用途(例如,它是OCR系统还是面部识别系统),目标是在相应的低维流形(分别是,通用符号或通用面)。为此,我们利用生成性对抗网络的性质构造了一个连通的低维流形,并证明了我们在该流形内进行的模型逆攻击的有效性。

[5]:Learning protein conformational space by enforcing physics with  convolutions and latent interpolations
标题:利用卷积和隐插值强化物理学习蛋白质构象空间
作者:Venkata K. Ramaswamy, Chris G. Willcocks, Matteo T. Degiacomi
链接:https://arxiv.org/abs/1910.04543

摘要:确定蛋白质的不同构象状态以及它们之间的转换路径是蛋白质生物化学的核心挑战,也是更好地理解生物分子结构与功能关系的关键。这项任务通常是通过对蛋白质构象空间进行微秒分子动力学(MD)模拟来完成的。尽管在计算硬件和增强的采样技术方面都取得了进展,MD始终会得到该空间的离散表示,过渡态的欠采样与其相关的能量势垒成比例。我们设计了一个卷积神经网络,该网络能够学习连续且物理上合理的构象空间表示,并给出了实验和模拟产生的构象实例。结果表明,该网络通过对两种不同蛋白质状态的MD模拟训练,可以正确地预测它们之间可能的过渡路径,而无需提供任何关于过渡状态的例子。然后我们证明,我们的网络,有一个独立于蛋白质的架构,可以在转移学习的场景中训练,导致性能优于从零开始训练的网络。

[6]:Learning neutrino effects in Cosmology with Convolutional Neural  Networks
标题:用卷积神经网络学习宇宙学中微子效应
作者:Elena Giusarma, Mauricio Reyes Hurtado, Francisco Villaescusa-Navarro, Siyu He, Shirley Ho, ChangHoon Hahn
备注:8 pages, 7 figures
链接:https://arxiv.org/abs/1910.04255

摘要:Measuring the sum of the three active neutrino masses, $M_\nu$, is one of the most important challenges in modern cosmology. Massive neutrinos imprint characteristic signatures on several cosmological observables in particular on the large-scale structure of the Universe. In order to maximize the information that can be retrieved from galaxy surveys, accurate theoretical predictions in the non-linear regime are needed. Currently, one way to achieve those predictions is by running cosmological numerical simulations. Unfortunately, producing those simulations requires high computational resources -- seven hundred CPU hours for each neutrino mass case. In this work, we propose a new method, based on a deep learning network (U-Net), to quickly generate simulations with massive neutrinos from standard $\Lambda$CDM simulations without neutrinos. We computed multiple relevant statistical measures of deep-learning generated simulations, and conclude that our method accurately reproduces the 3-dimensional spatial distribution of matter down to non-linear scales: $k < 0.7$ h/Mpc. Finally, our method allows us to generate massive neutrino simulations 10,000 times faster than the traditional methods.

[7]:Probabilistic Verification and Reachability Analysis of Neural Networks  via Semidefinite Programming
标题:基于半定规划的神经网络概率验证与可达性分析
作者:Mahyar Fazlyab, Manfred Morari, George J. Pappas
链接:https://arxiv.org/abs/1910.04249

摘要:量化神经网络的鲁棒性或验证其对输入不确定性或对抗性攻击的安全性已成为学习型系统的一个重要研究领域。大多数结果集中在神经网络输入在范数有界不确定性集内受扰动的最坏情况下。在本文中,我们考虑的是一个概率环境,其中的不确定性是随机的,具有已知的前两个矩。在此背景下,我们讨论了两个相关的问题:(i)概率安全验证,其目标是找到违反安全规范的概率的上限;(ii)置信椭球估计,其中给定神经网络输入的置信椭球,我们的目标是计算输出的置信椭球。由于非线性激活函数的存在,这两个问题很难精确求解。为了简化分析,我们的主要思想是通过对输入输出对施加仿射约束和二次约束来抽象非线性激活函数。然后我们证明,利用半定规划可以分析抽象网络的安全性,该安全性足以保证原始网络的安全性。我们用数值实验来说明我们的方法的性能。

[8]:Kernel-Based Approaches for Sequence Modeling: Connections to Neural  Methods
标题:基于核的序列建模方法:与神经方法的联系
作者:Kevin J Liang, Guoyin Wang, Yitong Li, Ricardo Henao, Lawrence Carin
链接:https://arxiv.org/abs/1910.04233

摘要:我们从递归核机器的角度来研究与时间相关的数据分析,从中可以自然地产生具有隐藏单元和门控存储单元的模型。通过考虑记忆细胞的动态选通,建立了一个与长短期记忆(LSTM)递归神经网络密切相关的模型。将此设置扩展到$n$-gram滤波器,卷积神经网络(Cnn)、选通Cnn和递归加法网络(RAn)也作为特殊情况恢复。我们的分析为LSTM提供了一个新的视角,同时也将其扩展到了$n$-gram卷积滤波器。实验在自然语言处理任务和局部场电位分析(神经科学)上进行。我们证明了我们从核中得到的变体的性能与传统的神经方法相当甚至更好。对于神经科学的应用,新模型显示出相对于现有技术的显著改进。

[9]:A new neural-network-based model for measuring the strength of a  pseudorandom binary sequence
标题:一种新的基于神经网络的伪随机二元序列强度测量模型
作者:Ahmed Alamer, Ben Soh
备注:15 pages to be submitted to Logical "Methods in Computer Science" Journal
链接:https://arxiv.org/abs/1910.04195

摘要:最大阶复杂度是测量伪随机序列非线性的重要工具。目前缺乏有效预测伪随机二元序列强度的工具。为此,本文提出了一种基于神经网络的伪随机二元序列强度测量模型。将收缩生成器(SG)密钥流作为伪随机二进制序列,然后计算作为最大阶复杂度表示的唯一窗口大小(UWS),我们证明了该模型比预测最大阶复杂度的经典方法提供了更精确和高效的预测(测量)。
梯度(1篇)

[1]:Stochastic Implicit Natural Gradient for Black-box Optimization
标题:黑箱优化的随机隐式自然梯度法
作者:Yueming Lyu, Ivor W. Tsang
备注:Black-box Optimization
链接:https://arxiv.org/abs/1910.04301

摘要:黑箱优化对于许多计算密集型应用,包括强化学习(rL)、机器人控制等,具有重要意义。本文提出了一种新的黑箱优化理论框架,该框架在KL散度定义的信任域内进行随机更新。我们证明了此更新等价于指数族分布的自然梯度阶跃w.r.t.自然参数。从理论上证明了凸函数框架的收敛速度。我们的理论结果也适用于不可微的黑箱函数。在经验上,我们的方法在可分离的基准测试问题上取得了优于目前最先进的方法CMA-es的性能。
聚类(1篇)

[1]:Detecting organized eCommerce fraud using scalable categorical  clustering
标题:利用可扩展分类聚类检测有组织的电子商务欺诈
作者:Samuel Marchal, Sebastian Szyller
备注:14 pages, 6 figures, Annual Computer Security Applications Conference (ACSAC 2019)
链接:https://arxiv.org/abs/1910.04514

摘要:在线零售,电子商务,经常成为通过欺骗获得商品或服务的恶意客户(欺诈者)进行欺诈的受害者。由一组专业欺诈者协调的欺诈行为称为有组织欺诈,这些欺诈者下达了若干欺诈命令,以最大限度地增加其收益。现有的欺诈检测方法通常是孤立地分析订单,而且它们在识别与有组织欺诈相关的欺诈订单组方面并不有效。它们还错误地将许多合法订单识别为欺诈,这妨碍了它们用于自动取消欺诈。我们提出了一种通过批量分析订单来检测有组织欺诈的新方法。我们的方法基于聚类,目的是将同一组欺诈者下的欺诈订单组合在一起。它有选择地使用两种现有的技术:聚集聚类和抽样,在合理的时间内递归地将订单分组成小的集群。我们根据扎兰多网站(Zalando网站是欧洲最大的在线服装零售商)的实际订单评估我们的聚类技术1。我们的集群在几个小时内处理10万个订单,并将35-45%的欺诈订单组合在一起。我们在聚类的基础上提出了一种简单的技术,可以检测26.2%的欺诈行为,同时只对0.1%的合法订单发出错误警报。
其他(41篇)

[1]:Transportation Mode Classification from Smartphone Sensors via a  Long-Short-Term-Memory Network
标题:基于长短期存储网络的智能手机传感器传输模式分类
作者:Björn Friedrich, Benjamin Cauchy, Andreas Hein, Sebastian Fudickar
备注:5 pages, 6 figures, 2 tables, ubicomp19
链接:https://arxiv.org/abs/1910.04739

摘要:介绍了一种用于智能手机数据传输方式分类的长、短期存储网络的结构,并对其准确性进行了评价。通过使用具有常见预处理步骤(如分类任务的标准化)的长-短期记忆网络,内部测试数据集的F1得分准确率达到63.68%。我们以“GanbareAM”团队的身份参加了“SHL认可挑战赛”。

[2]:NEURO-DRAM: a 3D recurrent visual attention model for interpretable  neuroimaging classification
标题:NEURO-DRAM:一种用于解释性神经影像学分类的三维复发性视觉注意模型
作者:David Wood, James Cole, Thomas Booth
备注:13 pages, 2 figures
链接:https://arxiv.org/abs/1910.04721

摘要:深度学习作为一种从结构磁共振图像诊断精神和神经疾病的方法,正引起神经影像学界的极大兴趣。然而,研究人员倾向于采用为传统计算机视觉任务优化的架构,而不是为神经成像数据定制网络。我们通过引入neuro-DRAM来解决这一问题,neuro-DRAM是一种为神经影像分类量身定制的三维重复视觉注意模型,具有灵活地整合非影像信息的能力。该模型包括一个主体,该主体通过强化学习学习,学习在体积图像中导航,有选择地关注给定任务中信息量最大的区域。当应用于阿尔茨海默病预测时,neuroDRAM在样本外数据集上实现了最新的分类精度,显著优于基线卷积神经网络。当进一步应用于预测哪些轻度认知障碍患者将在两年内被诊断为阿尔茨海默病的任务时,该模型在无需额外训练的情况下达到了最新的准确性。令人鼓舞的是,在没有明确指示的情况下,研究人员学习到了一种符合阿尔茨海默病标准化放射特征的搜索策略,这表明了一种自动发现生物标记物的途径,以发现更不易理解的疾病。

[3]:On the Effects of Pseudo and Quantum Random Number Generators in Soft  Computing
标题:软计算中伪随机数发生器和量子随机数发生器的作用
作者:Jordan J. Bird, Anikó Ekárt, Diego R. Faria
链接:https://arxiv.org/abs/1910.04701

摘要:In this work, we argue that the implications of Pseudo and Quantum Random Number Generators (PRNG and QRNG) inexplicably affect the performances and behaviours of various machine learning models that require a random input. These implications are yet to be explored in Soft Computing until this work. We use a CPU and a QPU to generate random numbers for multiple Machine Learning techniques. Random numbers are employed in the random initial weight distributions of Dense and Convolutional Neural Networks, in which results show a profound difference in learning patterns for the two. In 50 Dense Neural Networks (25 PRNG/25 QRNG), QRNG increases over PRNG for accent classification at +0.1%, and QRNG exceeded PRNG for mental state EEG classification by +2.82%. In 50 Convolutional Neural Networks (25 PRNG/25 QRNG), the MNIST and CIFAR-10 problems are benchmarked, in MNIST the QRNG experiences a higher starting accuracy than the PRNG but ultimately only exceeds it by 0.02%. In CIFAR-10, the QRNG outperforms PRNG by +0.92%. The n-random split of a Random Tree is enhanced towards and new Quantum Random Tree (QRT) model, which has differing classification abilities to its classical counterpart, 200 trees are trained and compared (100 PRNG/100 QRNG). Using the accent and EEG classification datasets, a QRT seemed inferior to a RT as it performed on average worse by -0.12%. This pattern is also seen in the EEG classification problem, where a QRT performs worse than a RT by -0.28%. Finally, the QRT is ensembled into a Quantum Random Forest (QRF), which also has a noticeable effect when compared to the standard Random Forest (RF)... ABSTRACT SHORTENED DUE TO ARXIV LIMIT

[4]:Learning to Remember from a Multi-Task Teacher
标题:从一个多任务的老师那里学习记忆
作者:Yuwen Xiong, Mengye Ren, Raquel Urtasun
链接:https://arxiv.org/abs/1910.04650

摘要:最近关于序贯学习中灾难性遗忘的研究通常集中在确定先前学习任务预测的准确性上。在本文中,我们认为当学习一个新的数据分布时,神经网络的输出会发生迅速的变化,而似乎“忘记”了一切的网络仍然包含对以前任务的有用表示。我们建议不要强制输出精度保持不变,而是减少灾难性遗忘对表示层的影响,因为稍后可以通过少量示例快速恢复输出层。为此,我们提出了一个测量表征遗忘量的实验装置,并开发了一种新的元学习算法来克服这个问题。提出的元学习者模拟多任务教师网络的表示,产生顺序学习网络的权值更新。我们的研究表明,元学习者可以在新任务中改进其学习表征,同时保持对旧任务的良好表征。

[5]:Manifold learning from a teacher's demonstrations
标题:从教师的示范中学习
作者:Pei Wang, Arash Givchi, Patrick Shafto
链接:https://arxiv.org/abs/1910.04615

摘要:We consider the problem of manifold learning. Extending existing approaches of learning from randomly sampled data points, we consider contexts where data may be chosen by a teacher. We analyze learning from teachers who can provide structured data such as points, comparisons (pairs of points), demonstrations (sequences). We prove results showing that the former two do not yield notable decreases in the amount of data required to infer a manifold. Teaching by demonstration can yield remarkable decreases in the amount of data required, if we allow the goal to be teaching up to topology. We further analyze teaching learners in the context of persistence homology. Teaching topology can greatly reduce the number of datapoints required to infer correct geometry, and allows learning from teachers who themselves do not have full knowledge of the true manifold. We conclude with implications for learning in humans and machines.

[6]:Recycled ADMM: Improving the Privacy and Accuracy of Distributed  Algorithms
标题:回收的ADMM:提高分布式算法的隐私性和准确性
作者:Xueru Zhang, Mohammad Mahdi Khalili, Mingyan Liu
备注:arXiv admin note: substantial text overlap witharXiv:1810.03197
链接:https://arxiv.org/abs/1910.04581

摘要:乘子交替方向法是求解分散凸优化问题的一种有效方法。在分布式设置中,每个节点使用其本地数据执行计算,并且以迭代的方式在相邻节点之间交换本地结果。在这个迭代过程中,数据隐私的泄漏会出现,并且会在多次迭代中大量累积,这使得很难平衡隐私准确性的权衡。我们提出了循环ADMM(r-ADMM),即在每一次偶数迭代中应用线性近似,其解仅使用前一次奇数迭代的结果直接计算。结果表明,在这种方案下,一半的更新不会造成隐私损失,并且与传统的ADMM相比,所需的计算量要少得多。此外,r-ADMM可以进一步修改(MR-ADMM),使得每个节点在迭代期间独立地确定其自己的惩罚参数。我们得到了两种算法收敛的充分条件,并给出了基于目标扰动的隐私分析。结果表明,与传统的ADMM相比,该方法可以显著提高隐私权的准确性。

[7]:QPyTorch: A Low-Precision Arithmetic Simulation Framework
标题:QPyTorch:一种低精度算法仿真框架
作者:Tianyi Zhang, Zhiqiu Lin, Guandao Yang, Christopher De Sa
备注:NeurIPS 2019 EMC^2 Workshop on Energy Efficient Machine Learning and Cognitive Computing
链接:https://arxiv.org/abs/1910.04540

摘要:低精度训练降低了计算成本,产生了有效的模型。最近在开发新的低精度训练算法方面的研究通常依赖于仿真来经验评估量化的统计效果,同时避免了构建特定硬件的大量开销。为了支持这一实证研究,我们引入了一种低精度算法仿真框架QPyTorch。QPyTorch内置于PyTorch中,它提供了一个方便的接口,可以最大限度地减少将现有代码可靠转换为学习低精度训练所需的工作量。QPyTorch是通用的,支持精度、数字格式和舍入选项的多种组合。此外,它还利用一种有效的融合内核方法来减少模拟器的开销,从而能够模拟大规模的实际问题。QPyTorch可在此https URL上公开获取。

[8]:Deep Structured Mixtures of Gaussian Processes
标题:高斯过程的深结构混合
作者:Martin Trapp, Robert Peharz, Franz Pernkopf, Carl E. Rasmussen
链接:https://arxiv.org/abs/1910.04536

摘要:Gaussian Processes (GPs) are powerful non-parametric Bayesian regression models that allow exact posterior inference, but exhibit high computational and memory costs. In order to improve scalability of GPs, approximate posterior inference is frequently employed, where a prominent class of approximation techniques is based on local GP experts. However, the local-expert techniques proposed so far are either not well-principled, come with limited approximation guarantees, or lead to intractable models. In this paper, we introduce deep structured mixtures of GP experts, a stochastic process model which i) allows exact posterior inference, ii) has attractive computational and memory costs, and iii), when used as GP approximation, captures predictive uncertainties consistently better than previous approximations. In a variety of experiments, we show that deep structured mixtures have a low approximation error and outperform existing expert-based approaches.

[9]:Probabilistic Rollouts for Learning Curve Extrapolation Across  Hyperparameter Settings
标题:超参数设置中学习曲线外推的概率展开
作者:Matilde Gargiani, Aaron Klein, Stefan Falkner, Frank Hutter
链接:https://arxiv.org/abs/1910.04522

摘要:基于变长学习曲线的训练数据,我们提出了能够外推迭代机器学习算法学习曲线的概率模型,例如用于训练深层网络的随机梯度下降。我们研究了基于随机森林和贝叶斯递归神经网络的框架实例。我们的实验表明,当外推使用不同超参数设置训练的神经网络的性能时,这些模型比超参数优化文献中的最新模型产生更好的预测。

[10]:Orthogonality Constrained Multi-Head Attention For Keyword Spotting
标题:基于正交约束的多人头注意关键词识别
作者:Mingu Lee, Jinkyu Lee, Hye Jin Jang, Byeonggeun Kim, Wonil Chang, Kyuwoong Hwang
备注:Accepted to ASRU 2019
链接:https://arxiv.org/abs/1910.04500

摘要:Multi-head attention mechanism is capable of learning various representations from sequential data while paying attention to different subsequences, e.g., word-pieces or syllables in a spoken word. From the subsequences, it retrieves richer information than a single-head attention which only summarizes the whole sequence into one context vector. However, a naive use of the multi-head attention does not guarantee such richness as the attention heads may have positional and representational redundancy. In this paper, we propose a regularization technique for multi-head attention mechanism in an end-to-end neural keyword spotting system. Augmenting regularization terms which penalize positional and contextual non-orthogonality between the attention heads encourages to output different representations from separate subsequences, which in turn enables leveraging structured information without explicit sequence models such as hidden Markov models. In addition, intra-head contextual non-orthogonality regularization encourages each attention head to have similar representations across keyword examples, which helps classification by reducing feature variability. The experimental results demonstrate that the proposed regularization technique significantly improves the keyword spotting performance for the keyword "Hey Snapdragon".

[11]:Still no free lunches: the price to pay for tighter PAC-Bayes bounds
标题:仍然没有免费午餐:为紧缩PAC-Bayes边界而付出的代价
作者:Benjamin Guedj, Louis Pujol
链接:https://arxiv.org/abs/1910.04460

摘要:“没有免费午餐”的结果表明,在没有事先假设和建模的情况下,不可能获得学习算法误差的有意义界限。一些模型很昂贵(强有力的假设,如亚高斯尾),另一些则很便宜(只是有限方差)。众所周知,你付出的越多,得到的就越多:换句话说,最昂贵的模型产生的边界就越有趣。稳健统计的最新进展研究了在保持成本最小的情况下获得紧界的过程。本文探讨并证明了在一个稳健的廉价模型环境中,获得紧PAC-Bayes界的极限是什么,并解决了这样一个问题:PAC-Bayes是否物有所值?

[12]:A Multi-view Dimensionality Reduction Algorithm Based on Smooth  Representation Model
标题:基于光滑表示模型的多视图降维算法
作者:Haohao Li, Huibing Wang
链接:https://arxiv.org/abs/1910.04439

摘要:在过去的几十年里,我们已经看到了一个大的算法家族,它们被设计用来为降维问题(DR)提供不同的解决方案。DR是将高维数据映射到低维子空间,从中挖掘重要信息的重要工具。此外,由于各种高维数据的多样性,可以利用多视图特征来提高学习性能。然而,许多DR方法无法集成多个视图。虽然不同视图的特征提取方式不同,但它们被用来描述同一个样本,这意味着它们具有高度的相关性。因此,如何利用多视图特征的一致性和互补性来学习高维特征的子空间是当前研究的重要课题。本文提出了一种有效的多视图降维算法多视图平滑保持投影。首先,在光滑表示模型的基础上,构造了一种单视图DR平滑保持投影方法。该方法的目的是为高维数据寻找一个子空间,在该子空间中尽可能地保留平滑重构权值。然后,我们将其推广到一个多视图版本,其中我们利用Hilbert-Schmidt独立性准则共同学习所有视图的一个公共子空间。在多视图数据集上的大量实验表明,该方法具有良好的性能。

[13]:Learning beyond Predefined Label Space via Bayesian Nonparametric Topic  Modelling
标题:基于贝叶斯非参数主题建模的预定义标签空间学习
作者:Changying Du, Fuzhen Zhuang, Jia He, Qing He, Guoping Long
备注:Learning beyond predefined labels; Generalized zero-shot learning; Semi-supervised learning; Generative model; Nonparametric Bayesian learning; Hierarchical Dirichlet process; Topic modelling; Collapsed Gibbs sampling
链接:https://arxiv.org/abs/1910.04420

摘要:在实际的机器学习应用中,测试数据可能包含一些有意义的新类别,这些类别在标记的训练数据中是看不到的。为了同时识别新的数据类别并将最合适的类别标签分配给实际来自已知类别的数据,现有模型假设预先指定了未知新类别的数量,但很难预先确定。本文基于层次Dirichlet过程和潜在Dirichlet分配的概念,提出了一个贝叶斯非参数主题模型来自动推断这个数。模型中的精确推理比较困难,因此我们提供了一种有效的折叠Gibbs抽样算法来进行近似后验推理。对各种文本数据集的大量实验表明:(a)与使用预先指定的新类别真实数量的参数方法相比,所提出的非参数方法可以产生可比的性能;(b)当无法获得新类别的确切数量时,也就是说,参数化方法对新的分类只有一个粗略的概念,我们的方法具有明显的性能优势。

[14]:Imitation Learning from Observations by Minimizing Inverse Dynamics  Disagreement
标题:通过最小化逆动力学分歧从观测值中学习模拟
作者:Chao Yang, Xiaojian Ma, Wenbing Huang, Fuchun Sun, Huaping Liu, Junzhou Huang, Chuang Gan
备注:Accepted to NeurIPS 2019 as a spotlight. Chao Yang and Xiaojian Ma contributed equally to this work
链接:https://arxiv.org/abs/1910.04417

摘要:This paper studies Learning from Observations (LfO) for imitation learning with access to state-only demonstrations. In contrast to Learning from Demonstration (LfD) that involves both action and state supervision, LfO is more practical in leveraging previously inapplicable resources (e.g. videos), yet more challenging due to the incomplete expert guidance. In this paper, we investigate LfO and its difference with LfD in both theoretical and practical perspectives. We first prove that the gap between LfD and LfO actually lies in the disagreement of inverse dynamics models between the imitator and the expert, if following the modeling approach of GAIL. More importantly, the upper bound of this gap is revealed by a negative causal entropy which can be minimized in a model-free way. We term our method as Inverse-Dynamics-Disagreement-Minimization (IDDM) which enhances the conventional LfO method through further bridging the gap to LfD. Considerable empirical results on challenging benchmarks indicate that our method attains consistent improvements over other LfO counterparts.

[15]:Online Learning Using Only Peer Assessment
标题:仅使用同行评估的在线学习
作者:Yang Liu, David P. Helmbold
链接:https://arxiv.org/abs/1910.04382

摘要:本文研究了一类具有专家预测的经典在线学习问题。我们的模型的差异和挑战是由于缺乏对每个专家在每个时间步骤$T$所造成损失的任何直接反馈。我们提出了一种使用同行评估并确定成功条件的方法。我们的技术围绕着一个精心设计的同行评分函数$s()$,该函数基于同行一致意见对专家的预测进行评分。我们给出了一个充分条件,我们称之为{peer calibraTion},在此条件下,使用精心编制的$s()$计算的损失反馈的标准在线学习算法对于未披露的基本真值具有有限遗憾。然后我们将演示如何为不同的假设和模型导出合适的$s()$函数。

[16]:Time series classification for varying length series
标题:变长序列的时间序列分类
作者:Chang Wei Tan, Francois Petitjean, Eamonn Keogh, Geoffrey I. Webb
备注:23 pages
链接:https://arxiv.org/abs/1910.04341

摘要:对时间序列分类的研究往往集中在等长序列的情况下。然而,现实世界的时间序列数据通常具有不等的长度。不同的时间序列长度可能由许多根本不同的机制引起。在这项工作中,我们识别并评估了这类机制的两类:相对于相关信号的采样率变化,以及一个时间序列的起点和终点之间相对于另一个时间序列的变化。我们研究如何最好地处理由每一类机制生成的时间序列以进行时间序列分类。我们进行了大量的实验,并就如何在时间序列分类中处理长度变化提供了实用的建议。

[17]:Sparse tree search optimality guarantees in POMDPs with continuous  observation spaces
标题:连续观测空间POMDPs中稀疏树搜索的最优性保证
作者:Michael H. Lim, Claire J. Tomlin, Zachary N. Sunberg
链接:https://arxiv.org/abs/1910.04332

摘要:具有连续状态空间和观测空间的部分可观测马尔可夫决策过程(POMDP)在描述现实世界的决策和控制问题时具有很强的灵活性,但其求解难度是众所周知的。最近基于在线采样的算法使用观测似然加权,在具有连续观测空间的领域显示出前所未有的有效性。然而,这种技术还没有正式的理论依据。这项工作提供了这样一个理由,证明了一个简化的算法,部分可观测加权稀疏采样(POWSS),将以高概率准确地估计q值,并且可以通过增加计算能力使其在最优解附近任意执行。

[18]:Straggler-Agnostic and Communication-Efficient Distributed Primal-Dual  Algorithm for High-Dimensional Data Mining
标题:高维数据挖掘中的离散不可知通信高效分布式原对偶算法
作者:Zhouyuan Huo, Heng Huang
链接:https://arxiv.org/abs/1910.04235

摘要:近年来,减少机器之间的通信时间成为分布式数据挖掘的主要研究方向。以前的方法建议在服务器中聚合本地解决方案之前,让工作进程在本地执行更多的计算,从而减少服务器和工作进程之间的通信循环。然而,这些方法没有考虑减少每轮的通信时间,并且在某些条件下(例如,当存在离散问题或数据集是高维的)工作得非常差。在本文中,我们的目标是减少每轮的通信时间以及所需的通信轮数。本文提出了一种具有不区分服务器和带宽效率工作者的通信效率分布式原对偶方法。分析了该方法的收敛性,证明了该方法能保证凸问题最优解的线性收敛速度。最后,我们在模拟和实际的分布式系统中进行了大规模的实验,实验结果表明,所提出的方法比比较方法快得多。

[19]:Who's responsible? Jointly quantifying the contribution of the learning  algorithm and training data
标题:谁负责?联合量化学习算法和训练数据的贡献
作者:Gal Yona, Amirata Ghorbani, James Zou
链接:https://arxiv.org/abs/1910.04214

摘要:当两种方法都在相同的数据上训练时,一种奇特的学习算法$A$的性能优于基线方法$b$。A$是否应该获得所有的学分,以提高绩效,还是培训数据也值得一些学分?但是,当部署在不同域的新设置中时,$A$会比$b$犯更多的错误。有多少责任应该归咎于学习算法或训练数据?随着我们的目标是让ML更加负责,这些问题变得越来越重要和普遍。他们的回答也将帮助我们在算法设计和数据收集之间分配资源。在本文中,我们将这些问题形式化,并提供一个原则性的扩展ShApley框架来共同量化学习算法和训练数据的贡献。扩展ShApley唯一地满足了保证数据和算法公平处理的几个自然属性。通过实验和理论分析,我们证明了扩展ShApley算法有几个重要的应用:1)它提供了一个新的ML性能改进指标,该指标可以分离数据体制和算法的影响;2)它通过正确分配错误的责任来促进ML问责;3)它提供了对ML设计器的操作更加健壮。

[20]:The Implicit Regularization of Ordinary Least Squares Ensembles
标题:普通最小二乘集合的隐式正则化
作者:Daniel LeJeune, Hamid Javadi, Richard G. Baraniuk
备注:21 pages, 4 figures
链接:https://arxiv.org/abs/1910.04743

摘要:在一组独立的预测器上求平均值的集成方法,每个预测器仅限于训练数据的示例和特征的子采样,在机器学习中具有重要意义,例如曾经流行的随机林,然而子采样效应的性质,特别是特征的性质,不太明白。我们研究线性预测器集合的情况,其中每个单独的预测器在数据矩阵的随机子矩阵上使用普通最小二乘拟合。我们证明,在标准高斯假设下,当为每个预测器选择的特征数最优调谐时,一个大集合的渐近风险等于渐近岭回归风险,这是已知的最佳线性预测器在这个设置。除了从子采样中引出这种隐式正则化,我们还将此集成与用于训练深(神经)网络的辍学技术相连接,另一种已被证明具有脊状正则化效果的策略。

[21]:Studying Software Engineering Patterns for Designing Machine Learning  Systems
标题:设计机器学习系统的软件工程模式研究
作者:Hironori Washizaki, Hiromu Uchida, Foutse Khomh, Yann-Gael Gueheneuc
链接:https://arxiv.org/abs/1910.04736

摘要:近年来,机器学习(ML)技术已成为一种流行的学习方法。ML技术依赖于数学和软件工程。研究人员和实践者研究设计ML应用系统和软件的最佳实践,以解决ML技术的软件复杂性和质量问题。这种设计实践通常通过封装给定上下文中常见问题的可重用解决方案,形式化为架构模式和设计模式。然而,据我们所知,还没有系统地收集、分类和讨论这些用于ML技术的软件工程(se)设计模式的工作。因此,我们着手为ML技术收集好/坏的se设计模式,以便为开发人员提供此类模式的全面和有序的分类。我们在这里报告了一个系统的文献综述(SLR)对ML的好/坏设计模式的初步结果。

[22]:LISA: Towards Learned DNA Sequence Search
标题:莉萨:学习DNA序列搜索
作者:Darryl Ho, Jialin Ding, Sanchit Misra, Nesime Tatbul, Vikram Nathan, Vasimuddin Md, Tim Kraska
链接:https://arxiv.org/abs/1910.04728

摘要:下一代测序(NGS)技术已经能够以高吞吐量对数十亿个短DNA片段进行负担得起的测序,为种群规模的基因组学铺平了道路。这种规模的基因组数据分析需要克服性能瓶颈,例如在长参考序列上搜索短DNA序列。本文介绍了一种新的基于学习的DNA序列搜索方法LISA(learnedindexesforsequenceanalysis)。作为概念的第一个证明,我们将重点放在加速问题的一个最基本的方面,称为精确搜索。LISA建立并扩展了FM索引,FM索引是广泛应用于基因组学工具链中的最新技术。对人类基因组数据集的初步实验表明,LISA的性能比传统的同类产品提高了4倍。

[23]:Modeling of negative protein-protein interactions: methods and  experiments
标题:负性蛋白质相互作用的建模方法与实验
作者:Andrea Moscatelli
链接:https://arxiv.org/abs/1910.04709

摘要:蛋白质-蛋白质相互作用(PPI)对人体具有重要意义,对其存在的认识有助于药物靶点开发和治疗设计等非常重要的任务。用于检测新PPI的高通量实验成本高、耗时长,强调需要能够生成高质量PPI预测的新计算系统。这些系统必须面对两个主要问题:人类相互作用体的高度不完整性和缺乏高质量的负性蛋白质-蛋白质相互作用(即已知不相互作用的蛋白质)。后者通常被PPIs预测系统所忽略,在性能和指标上造成了很大的偏差。在这项工作中,我们比较了使用高可靠性训练和测试集模拟负知识的方法。此外,当采用非常可靠的设置时,我们还测量了两个最先进系统的性能。

[24]:Assistive Gym: A Physics Simulation Framework for Assistive Robotics
标题:辅助健身房:辅助机器人的物理仿真框架
作者:Zackory Erickson, Vamsee Gangaram, Ariel Kapusta, C. Karen Liu, Charles C. Kemp
备注:8 pages, 5 figures, 2 tables
链接:https://arxiv.org/abs/1910.04700

摘要:Autonomous robots have the potential to serve as versatile caregivers that improve quality of life for millions of people worldwide. Yet, conducting research in this area presents numerous challenges, including the risks of physical interaction between people and robots. Physics simulations have been used to optimize and train robots for physical assistance, but have typically focused on a single task. In this paper, we present Assistive Gym, an open source physics simulation framework for assistive robots that models multiple tasks. It includes six simulated environments in which a robotic manipulator can attempt to assist a person with activities of daily living (ADLs): itch scratching, drinking, feeding, body manipulation, dressing, and bathing. Assistive Gym models a person's physical capabilities and preferences for assistance, which are used to provide a reward function. We present baseline policies trained using reinforcement learning for four different commercial robots in the six environments. We demonstrate that modeling human motion results in better assistance and we compare the performance of different robots. Overall, we show that Assistive Gym is a promising tool for assistive robotics research.

[25]:Learning from Multiple Corrupted Sources, with Application to Learning  from Label Proportions
标题:从多个损坏源学习,并应用到从标签比例学习
作者:Clayton Scott, Jianxin Zhang
链接:https://arxiv.org/abs/1910.04665

摘要:我们研究了二元分类在学习者被呈现多个腐败训练样本的情况下,样本大小和腐败程度可能不同,并提出了一种基于最小化腐败校正经验风险加权组合的方法。我们建立了一个推广误差界,并进一步证明了当权重是样本大小和腐败程度的某种可解释和直观函数时,该界是最优的。然后,我们将此设置应用于标签比例学习(LLP)问题,并提出了一种算法,该算法享有LLP已知的最一般的统计性能保证。实验证明了我们理论的实用性。

[26]:Efficient Sketching Algorithm for Sparse Binary Data
标题:稀疏二值数据的高效绘制算法
作者:Rameshwar Pratap, Debajyoti Bera, Karthik Revanuru
链接:https://arxiv.org/abs/1910.04658

摘要:近年来WWW、物联网、社交网络、电子商务等的发展产生了大量的数据。这些数据集主要由高维稀疏数据集表示。常用的数据分析任务,如聚类、分类、排序、近邻搜索等,许多基本的子程序都是随着数据集的维数变化而变化的。在这项工作中,我们解决了这个问题,并提出了一个用于稀疏二进制数据集的草图绘制(或者,降维)算法$\binsketch$(二进制数据草图)。$\binsketch$在绘制草图后保留数据集的二进制版本,并在同一草图上维护多个相似性度量的估计值,如Jaccard、Cosine、内积相似性和Hamming距离。我们对我们的算法进行了理论分析,并在几个实际数据集上进行了大量的实验。在均方误差和排序方面,我们比较了我们的算法和最新算法的性能。与其他候选算法相比,我们提出的算法在降低维数时间方面具有相当的精度,同时也显著加快了速度。我们的建议简单,易于实施,因此可以在实践中采纳。

[27]:On the Dualization of Operator-Valued Kernel Machines
标题:关于算子值核机的二元化
作者:Pierre Laforgue, Alex Lambert, Luc Motte, Florence d'Alché-Buc
链接:https://arxiv.org/abs/1910.04621

摘要:Operator-Valued Kernels (OVKs) and Vector-Valued Reproducing Kernel Hilbert Spaces (vv-RKHSs) provide an elegant way to extend scalar kernel methods when the output space is a Hilbert space. First used in multi-task regression, this theoretical framework opens the door to various applications, ranging from structured output prediction to functional regression, thanks to its ability to deal with infinite dimensional output spaces. This work investigates how to use the duality principle to handle different families of loss functions, yet unexplored within vv-RKHSs. The difficulty of having infinite dimensional dual variables is overcome, either by means of a Double Representer Theorem when the loss depends on inner products solely, or by an in-depth analysis of the Fenchel-Legendre transform of integral losses. Experiments on structured prediction, function-to-function regression and structured representation learning with $\epsilon$-insensitive and Huber losses illustrate the benefits of this framework.

[28]:Jointly Learnable Behavior and Trajectory Planning for Self-Driving  Vehicles
标题:自驾车的联合学习行为与轨迹规划
作者:Abbas Sadat, Mengye Ren, Andrei Pokrovsky, Yen-Chen Lin, Ersin Yumer, Raquel Urtasun
备注:IROS 2019
链接:https://arxiv.org/abs/1910.04586

摘要:自动驾驶车辆中使用的运动规划器需要生成安全、舒适且遵守交通规则的轨迹。这通常由两个模块实现:行为规划器(behavior planner),它处理高层决策并生成一个粗略的轨迹;轨迹规划器(trajection planner),它在规划范围内生成一个平滑可行的轨迹。然而,这些规划器通常是单独开发的,行为规划器中的更改可能会以意外的方式影响轨迹规划器。此外,轨迹规划器输出的最终轨迹可能与行为规划器生成的轨迹大不相同,因为它们不共享相同的目标。在本文中,我们提出了一个可共同学习的行为和轨迹规划器。与大多数现有的可学习的运动规划器只处理行为规划或使用不可预测的神经网络来表示从传感器到驾驶命令的整个逻辑不同,我们的方法在感知、预测和车辆动力学的基础上具有一个可解释的代价函数,以及一个联合学习算法来学习我们的行为和轨迹组件使用的共享成本函数。在真实世界的自驾车数据上的实验表明,与不采用联合行为和轨迹学习的基线相比,联合学习的计划者在与人类驾驶相似性和其他安全性指标方面都表现得更好。

[29]:On Scalable Variant of Wasserstein Barycenter
标题:关于Wasserstein重心的可伸缩变量
作者:Tam Le, Viet Huynh, Nhat Ho, Dinh Phung, Makoto Yamada
备注:Tam Le, Viet Huynh, and Nhat Ho contributed equally to this work
链接:https://arxiv.org/abs/1910.04483

摘要:我们研究了Wasserstein重心问题的一个变种,我们称之为{树切片Wasserstein重心},在Wasserstein距离的公式中,利用树度量的结构作为基础度量。在树结构的基础上,我们提出了求解树切片Wasserstein重心的无约束和约束形式的有效算法。该算法具有计算速度快、内存利用率高的特点,特别是在高维环境下,当树度量结构合理时,效果良好。对Wasserstein-barycenter的大规模合成数据集和真实数据集的实验结果表明,树形切片的Wasserstein-barycenter比Sinkhorn(Sinkhorn)的Wasserstein-barycenter更具优势。

[30]:Computationally Efficient Tree Variants of Gromov-Wasserstein
标题:Gromov-Wasserstein的计算有效树变量
作者:Tam Le, Nhat Ho, Makoto Yamada
备注:Tam Le and Nhat Ho contributed equally to this work
链接:https://arxiv.org/abs/1910.04462

摘要:We propose two novel variants of Gromov-Wasserstein (GW) between probability measures in different probability spaces based on projecting these measures into the tree metric spaces. Our first proposed discrepancy, named \emph{flow-based tree Gromov-Wasserstein}, hinges upon the tree metric from node to root in each tree to define the structure representation of probability measures on trees. The flow-based tree GW shares similar structures with univariate Wasserstein distance while keeping sufficient spatial information of the original projected probability measures. In order to further explore the structure of tree, we proposed another version of flow-based tree GW, which we refer to as \emph{depth-based tree Gromov-Wasserstein}. That discrepancy considers the alignment of probability measures hierarchically along each depth level of the tree structures. Finally, we demonstrate via extensive simulation studies on large-scale real data sets the relative advantage of the proposed discrepancies.

[31]:DOA Estimation by DNN-based Denoising and Dereverberation from Sound  Intensity Vector
标题:基于DNN的声强矢量去噪和去冗余DOA估计
作者:Masahiro Yasuda, Yuma Koizumi, Luca Mazzon, Shoichiro Saito, Hisashi Uematsu
备注:4 pages
链接:https://arxiv.org/abs/1910.04415

摘要:提出了一种基于声强矢量(iv)的波达方向(DOA)估计和基于DNN的去噪和去冗余相结合的波达方向(DOA)估计方法。由于环境噪声和混响的影响,基于iv的DOA估计精度下降,因此采用两个DNN来消除观测到的ivs中的这种影响。然后根据波传播的物理特性,从改进的ivs中估计DOA。在开放数据集上的实验表明,该方法的平均DOA误差为0.528度,优于传统的基于iv和DNN的DOA估计方法。

[32]:Learning from Indirect Observations
标题:从间接观察中学习
作者:Yivan Zhang, Nontawat Charoenphakdee, Masashi Sugiyama
链接:https://arxiv.org/abs/1910.04394

摘要:弱监督学习是一种利用较低质量但较大规模的监督信号来缓解标记数据稀缺性的范式。现有的工作主要集中在利用某种类型的弱监督,我们提出了一个从间接观察中学习的概率框架,用于学习现实世界中的各种弱监督问题,如噪声标签、互补标签和粗粒度标签。提出了一种基于极大似然原理的通用方法,该方法具有良好的理论性能,可直接应用于深部神经网络。具体地说,间接观测是完全依赖于真实目标随机或确定性的随机变量,利用真实目标的判别模型对间接观测进行建模。然后,将间接观测的似然最大化,隐式地得到真实目标的估计量。针对两种新的问题设置——从多类标签比例中学习和从粗粒度标签中学习——的综合实验,说明了我们的方法的实用性,并演示了如何整合各种弱监控源。

[33]:Understanding Limitation of Two Symmetrized Orders by Worst-case  Complexity
标题:用最坏情况复杂度理解两个对称化阶的极限
作者:Peijun Xiao, Zhisheng Xiao, Ruoyu SUn
链接:https://arxiv.org/abs/1910.04366

摘要:最近发现,多块循环ADMM的标准版本出现了分歧。有趣的是,高斯反代换ADMM(GBS-ADMM)和对称Gauss-Seidel-ADMM(sGS-ADMM)不存在发散问题。因此,对称化可以改善经典循环序的性能。在最近的另一项研究中,循环CD(坐标下降)被证明是$\mathcal{o}(n^2)$最坏情况下比随机版本慢一倍。一个自然的问题出现了:对称化的阶能比循环阶获得更快的收敛速度,甚至接近随机阶吗?在本文中,我们对这个问题给出了否定的回答。结果表明,在最坏情况下,高斯反代换阶和对称高斯赛德尔阶的收敛速度与循环阶的收敛速度相同。特别地,我们证明了对于无约束问题,它们可以比r-CD慢$\mathcal{o}(n^2)$倍。对于具有二次型目标的线性约束问题,我们经验地证明了GBS-ADMM和sGS-ADMM的收敛速度大约是随机排列ADMM的$\mathcal{o}(n^2)$倍。

[34]:Asking Easy Questions: A User-Friendly Approach to Active Reward  Learning
标题:提出简单问题:一种用户友好的主动奖励学习方法
作者:Erdem Bıyık, Malayandi Palan, Nicholas C. Landolfi, Dylan P. Losey, Dorsa Sadigh
备注:Proceedings of the 3rd Conference on Robot Learning (CoRL), October 2019
链接:https://arxiv.org/abs/1910.04365

摘要:机器人可以通过查询人类专家来学习正确的奖励功能。现有的方法试图选择机器人对人类反应最不确定的问题;但是,它们不考虑人类回答问题有多容易!本文探讨了一种信息增益公式,用以优化选择能自然反映人的回答能力的问题。我们的方法确定了优化机器人和人类不确定性之间权衡的问题,并确定了这些问题何时变得多余或昂贵。仿真和用户研究表明,我们的方法不仅能产生简单的问题,而且最终能获得更快的奖励学习。

[35]:One Sample Stochastic Frank-Wolfe
标题:一个随机样本Frank Wolfe
作者:Mingrui Zhang, Zebang Shen, Aryan Mokhtari, Hamed Hassani, Amin Karbasi
链接:https://arxiv.org/abs/1910.04322

摘要:One of the beauties of the projected gradient descent method lies in its rather simple mechanism and yet stable behavior with inexact, stochastic gradients, which has led to its wide-spread use in many machine learning applications. However, once we replace the projection operator with a simpler linear program, as is done in the Frank-Wolfe method, both simplicity and stability take a serious hit. The aim of this paper is to bring them back without sacrificing the efficiency. In this paper, we propose the first one-sample stochastic Frank-Wolfe algorithm, called 1-SFW, that avoids the need to carefully tune the batch size, step size, learning rate, and other complicated hyper parameters. In particular, 1-SFW achieves the optimal convergence rate of $\mathcal{O}(1/\epsilon^2)$ for reaching an $\epsilon$-suboptimal solution in the stochastic convex setting, and a $(1-1/e)-\epsilon$ approximate solution for a stochastic monotone DR-submodular maximization problem. Moreover, in a general non-convex setting, 1-SFW finds an $\epsilon$-first-order stationary point after at most $\mathcal{O}(1/\epsilon^3)$ iterations, achieving the current best known convergence rate. All of this is possible by designing a novel unbiased momentum estimator that governs the stability of the optimization process while using a single sample at each iteration.

[36]:Gromov-Wasserstein Averaging in a Riemannian Framework
标题:黎曼框架下的Gromov-Wasserstein平均
作者:Samir Chowdhury, Tom Needham
链接:https://arxiv.org/abs/1910.04308

摘要:我们介绍了一个理论框架,用于执行统计任务,包括但不限于平均和主成分分析,在(可能是非对称的)具有任意条目和大小的矩阵空间上。这是在Gromov-Wasserstein(GW)距离的视角下进行的,我们的方法将Sturm开发的GW距离的黎曼框架转化为实用的、可实现的网络数据分析工具。我们的方法在非对称随机块模型网络和被视为度量空间的平面形状的数据集上进行了说明。在理论方面,我们补充了Sturm的工作,得到了关于这个“空间空间”的切结构以及关于这个空间上fréchet函数梯度流的附加结果。

[37]:Online Simultaneous Semi-Parametric Dynamics Model Learning
标题:在线同步半参数动力学模型学习
作者:Joshua Smith, Michael Mistry
备注:Under review
链接:https://arxiv.org/abs/1910.04297

摘要:精确的机器人动力学模型对于控制、稳定性、运动优化和交互至关重要。动力学学习的半参数方法将基于物理的参数模型与非结构非参数回归相结合,以期达到精确性和通用性。在本文中,我们强调了当试图同时适应参数和非参数元件时所产生的非平稳问题。我们提出了一个一致性转换来补偿这种非平稳效应,这样两个模型的贡献可以同时适应,而不会对平台的性能产生不利影响。因此,我们能够应用半参数学习方法进行连续迭代在线适应,而不依赖于批量或离线更新。我们通过一个完美的虚拟模型以及将整个系统应用于Kuka-LWR-iv机械手来验证该变换。我们证明了在线学习过程中跟踪性能的提高,并且显示了两个组件之间的贡献明显转移,并且学习偏向于参数组件。

[38]:Subspace Estimation from Unbalanced and Incomplete Data Matrices:  $\ell_{2,\infty}$ Statistical Guarantees
标题:不平衡和不完全数据矩阵的子空间估计:$\ell{2\infty}$统计保证
作者:Changxiao Cai, Gen Li, Yuejie Chi, H. Vincent Poor, Yuxin Chen
链接:https://arxiv.org/abs/1910.04267

摘要:本文讨论在给定低秩矩阵$\boldsymbol{a}^{star}\mathbb{r}^{d{1}乘以d{2}$的噪声和部分观测值的情况下,估计其列空间。当然,也不乏这样的场景:观察结果虽然过于嘈杂,无法支持整个矩阵的可靠恢复,但仍能传递足够的信息,以便可靠地估计感兴趣的列空间。对于列维度$d{2}$远远超过行维度$d{1}$的高度不平衡情况,这一点尤为明显和关键,行维度$d{1}$是本文的重点。
我们研究了一种有效的谱分析方法,该方法对具有对角线删除的样本Gram矩阵进行运算。我们在$\ell{2}$和$\ell{2\infty}$估计精度方面为该方法建立了统计保证,如果$d{2}$实质上大于$d{1}$,则该方法将改进先前的结果。为了说明我们的发现的有效性,我们发展了我们的一般理论对三个实际重要应用的结果:(1)噪声数据的张量完成,(2)丢失数据的协方差估计,和(3)二部图的社区恢复。我们的理论改进了这三种情况下的性能保证。

[39]:Provenance Data in the Machine Learning Lifecycle in Computational  Science and Engineering
标题:计算科学与工程中机器学习生命周期的起源数据
作者:Renan Souza, Leonardo Azevedo, Vítor Lourenço, Elton Soares, Raphael Thiago, Rafael Brandão, Daniel Civitarese, Emilio Vital Brazil, Marcio Moreno, Patrick Valduriez, Marta Mattoso, Renato Cerqueira, Marco A. S. Netto
备注:10 pages, 7 figures, Accepted at Workflows in Support of Large-scale Science (WORKS) co-located with the ACM/IEEE International Conference for High Performance Computing, Networking, Storage, and Analysis (SC) 2019, Denver, Colorado
链接:https://arxiv.org/abs/1910.04223

摘要:Machine Learning (ML) has become essential in several industries. In Computational Science and Engineering (CSE), the complexity of the ML lifecycle comes from the large variety of data, scientists' expertise, tools, and workflows. If data are not tracked properly during the lifecycle, it becomes unfeasible to recreate a ML model from scratch or to explain to stackholders how it was created. The main limitation of provenance tracking solutions is that they cannot cope with provenance capture and integration of domain and ML data processed in the multiple workflows in the lifecycle while keeping the provenance capture overhead low. To handle this problem, in this paper we contribute with a detailed characterization of provenance data in the ML lifecycle in CSE; a new provenance data representation, called PROV-ML, built on top of W3C PROV and ML Schema; and extensions to a system that tracks provenance from multiple workflows to address the characteristics of ML and CSE, and to allow for provenance queries with a standard vocabulary. We show a practical use in a real case in the Oil and Gas industry, along with its evaluation using 48 GPUs in parallel.

[40]:Nonconvex stochastic optimization on manifolds via Riemannian  Frank-Wolfe methods
标题:流形上非凸随机优化的黎曼Frank-Wolfe方法
作者:Melanie Weber, Suvrit Sra
链接:https://arxiv.org/abs/1910.04194

摘要:我们研究了黎曼流形上光滑函数约束优化的随机无投影方法(当参数域以外有附加约束的流形)。具体地,我们介绍了非凸和测地凸问题的随机黎曼Frank-Wolfe方法。我们提出了随机优化和有限和问题的算法。对于后者,我们开发了方差减少方法,包括最近提出的蜘蛛技术的黎曼适应。对于所有的设置,我们恢复的收敛速度与欧几里德对应的最著名的速度相当。最后,我们讨论了两个基本任务的应用:计算多元正态分布的Karcher均值和Wasserstein重心。对于这两个任务,随机Fw方法都会产生最先进的经验性能。

[41]:Robust Dynamic Assortment Optimization in the Presence of Outlier  Customers
标题:存在离群顾客时的稳健动态组合优化
作者:Xi Chen, Akshay Krishnamurthy, Yining Wang
备注:27 pages, 1 figure
链接:https://arxiv.org/abs/1910.04183

摘要:研究效用参数未知的多项式logit模型下的动态组合优化问题。本文研究的主要问题是$\varepsilon$-污染模型下的模型mis规范,这是稳健统计和机器学习的基本模型。特别是,在$t$的销售范围内,我们假设客户在一个($1-\varepsilon$)-时间段的一小部分中,根据一个指定的基本多项式logit选择模型进行购买,并在剩余的$\varepsilon$-时间段的一小部分中做出任意购买决策。在该模型中,我们通过一种主动消除策略,提出了一种新的鲁棒在线产品组合优化策略。我们建立了后悔的上下界,并证明了当分类容量不变时,我们的策略在t的对数因子以内是最优的。此外,我们开发了一个完全自适应的策略,它不需要任何关于污染参数$\varepsilon$的先验知识。我们的模拟研究表明,我们的策略优于现有的基于置信上界(UCB)和汤普森抽样的策略。
CV方向重复(12篇)

[1]:Visual Understanding of Multiple Attributes Learning Model of X-Ray  Scattering Images
标题:X射线散射图像多属性学习模型的可视化理解
作者:Xinyi Huang, Suphanut Jamonnak, Ye Zhao, Boyu Wang, Minh Hoai, Kevin Yager, Wei Xu
备注:5 pages, 2 figures, ICCV conference co-held XAIC workshop 2019
链接:https://arxiv.org/abs/1910.04357

摘要:这个扩展的摘要提出了一个可视化系统,旨在让领域科学家直观地理解他们在x射线散射图像中提取多个属性的深层学习模型。该系统主要研究与多个结构属性相关的模型行为。它允许用户在特征空间中探索图像,将不同属性的分类输出,相对于领域科学家标注的实际属性。丰富的交互允许用户灵活地选择实例映像及其集群,并在细节上进行可视化比较。两个初步的案例研究证明了它的功能和实用性。

[2]:Removing input features via a generative model to explain their  attributions to classifier's decisions
标题:通过生成模型去除输入特征以解释其对分类器决策的属性
作者:Chirag Agarwal, Dan Schonfeld, Anh Nguyen
备注:Preprint. Submission under review
链接:https://arxiv.org/abs/1910.04256

摘要:可解释性方法通常通过启发式地去除输入特征对图像分类器决策的贡献,例如模糊、添加噪声或灰度化,这些通常会产生不现实的样本外。相反,我们建议将生成性修复者整合到三种具有代表性的归因方法中,以去除输入特征。与原始方法相比,我们的方法(1)在真实数据生成过程中生成更可信的反事实样本;(2)对超参数设置更稳健;(3)更准确地定位对象。我们的发现在ImageNet和Place365数据集以及两对不同的分类器和修复器上都是一致的。

[3]:Panoptic-DeepLab
标题:全景深度实验室
作者:Bowen Cheng, Maxwell D. Collins, Yukun Zhu, Ting Liu, Thomas S. Huang, Hartwig Adam, Liang-Chieh Chen
备注:4-page short tech report
链接:https://arxiv.org/abs/1910.04751

摘要:我们提出了全景DeepLab,一种自下而上的单镜头全景分割方法。我们的全景深度实验室概念简单,提供最先进的结果。特别地,我们分别采用了特定于语义的双ASPP和双解码器结构,以及实例分割。语义分割分支与任何语义分割模型(如DeepLab)的典型设计相同,而实例分割分支与类无关,涉及简单的实例中心回归。我们的单一全景深度实验室在所有三个城市景观基准上都创造了新的艺术水平,在测试集上达到了84.2%的百万像素、38.2%的ap和65.5%的PQ,并在其他具有挑战性的地图视觉上取得了进步。

[4]:MetaPix: Few-Shot Video Retargeting
标题:MetaPix:少镜头视频重定目标
作者:Jessica Lee, Deva Ramanan, Rohit Girdhar
备注:Short version accepted to NeurIPS'19 MetaLearn Workshop. Webpage:this https URL
链接:https://arxiv.org/abs/1910.04742

摘要:我们解决的任务是无监督地将人类行为从一个视频重新定位到另一个视频。我们考虑的挑战性设置,只有几帧的目标是可用的。我们方法的核心是一个条件生成模型,它可以将输入的骨骼姿态(用现成的姿态估计器自动提取)转换为输出目标帧。然而,构建一个通用的转码器是一个挑战,因为人类可能会因为服装和背景场景的几何结构而显得迥然不同。相反,我们学习如何使通用生成器适应目标中特定的人和背景。为此,我们利用元学习来发现有效的即时个性化策略。元学习的一个重要好处是,个性化转码器自然地在生成的帧之间增强时间一致性;所有帧都包含目标的一致服装和背景几何。我们在野外的网络视频和图像上进行了实验,结果表明,我们的方法比广泛使用的任务基线有所改进。

[5]:GLADAS: Gesture Learning for Advanced Driver Assistance Systems
标题:高级驾驶辅助系统的姿态学习
作者:Ethan Shaotran, Jonathan J. Cruz, Vijay Janapa Reddi
备注:9 Pages, 7 Figures
链接:https://arxiv.org/abs/1910.04695

摘要:随着自动驾驶汽车(AVs)的普及,人机交互(HCI)对生命安全至关重要。然而,很少有人致力于确保AVs了解路上的人类。本文介绍了GLADAS,一个基于模拟器的研究平台,旨在教AVs理解行人手势。GLADAS支持基于深度学习的自动驾驶汽车手势识别系统的培训、测试和验证。我们关注手势,因为它们是与汽车互动的一种原始(即自然和普通)方式。据我们所知,格拉达斯是第一个此类系统,旨在为进一步研究人类视听交互提供基础设施。我们还开发了一种自动驾驶汽车的手势识别算法,使用GLADAS来评估其性能。我们的研究结果表明,AV在85.91%的时间内能够理解人类的手势,这进一步说明了对AV与人类交互作用进行深入研究的必要性。

[6]:Machine Learning with Multi-Site Imaging Data: An Empirical Study on the  Impact of Scanner Effects
标题:多点成像数据的机器学习:扫描仪效应影响的实证研究
作者:Ben Glocker, Robert Robinson, Daniel C. Castro, Qi Dou, Ender Konukoglu
备注:Presented at the Medical Imaging meets NeurIPS Workshop 2019
链接:https://arxiv.org/abs/1910.04597

摘要:这是一项实证研究,旨在探讨使用机器学习时扫描器效应对多部位神经影像资料的影响。我们利用从两个不同的研究,Cam-can和UK-Biobank获得的结构T1加权脑MRI。在我们的研究中,我们构建了一个由592个年龄和性别匹配的个体,296个原始研究对象的大脑扫描数据集。我们的结果表明,即使在使用最先进的神经成像管道进行仔细的预处理之后,分类器也可以很容易地以非常高的精度区分数据的来源。我们对性别分类应用实例的分析表明,现有的数据协调方法无法消除扫描仪特有的偏差,从而导致过于乐观的性能估计和较差的泛化。我们的结论是,多站点数据协调仍然是一个开放的挑战,在将这些数据与先进的机器学习方法用于预测建模时需要特别小心。

[7]:Image Super-Resolution via Attention based Back Projection Networks
标题:基于注意力的反投影网络实现图像超分辨率
作者:Zhi-Song Liu, Li-Wen Wang, Chu-Tak Li, Wan-Chi Siu, Yui-Lam Chan
备注:9 pages, 7 figures, ABPN
链接:https://arxiv.org/abs/1910.04476

摘要:基于深度学习的图像超分辨率(SR)由于具有大数据消化能力而得到了迅速发展。一般来说,更深更宽的网络可以提取更丰富的特征图,生成质量更高的SR图像。然而,我们拥有的网络越复杂,实际应用需要的时间就越多。为了提高图像的分辨率,需要一个简化的网络。本文提出了一种基于注意的反投影网络(ABPN)。与最近的一些工作类似,我们认为对于SR增强的反投影块,可以进一步发展反投影机制,并建议迭代更新低分辨率和高分辨率的特征残差。在最近注意模型研究的启发下,我们提出了一个空间注意块(SAB)来学习不同层次特征间的互相关。基于一个假设,一个好的SR图像应该接近原始LR图像经过下采样。我们提出了一种改进的反投影块(RBPB)用于最终重建。在一些公共和AIM2019图像超分辨率挑战数据集上的大量实验表明,所提出的ABPN在定量和定性测量方面都能提供最新的甚至更好的性能。

[8]:From Visual Place Recognition to Navigation: Learning Sample-Efficient  Control Policies across Diverse Real World Environments
标题:从视觉位置识别到导航:跨不同现实世界环境学习样本有效控制策略
作者:Marvin Chancán, Michael Milford
备注:Under review at ICRA 2020
链接:https://arxiv.org/abs/1910.04335

摘要:现实环境中的视觉导航任务往往需要自我运动和位置识别反馈。虽然深度强化学习在端到端解决这些感知和决策问题方面取得了成功,但这些算法需要大量的经验才能从高维输入中学习导航策略,而由于样本的复杂性,这对于真正的机器人来说通常是不切实际的。在本文中,我们用两个主要的贡献来解决这些问题。我们首先利用位置识别和深度学习技术,结合目标-目的地反馈,生成紧凑的双峰图像表示,然后可用于从少量经验中有效学习千米级的控制策略。第二,我们提出了一个交互式的、现实的框架,称为CityLearn,它第一次使导航算法能够在城市规模的、真实的、环境发生极端变化的环境中进行训练。CityLearn拥有超过10个基准的真实世界数据集,这些数据集通常用于现场识别研究,记录了100多条穿越路线,遍布全球60个城市。我们在两个城市学习环境中评估我们的方法,其中我们的导航策略是使用单个遍历进行训练的。结果表明,我们的方法比使用原始图像的速度快2个数量级以上,并且可以概括极端的视觉变化,包括白天到夜晚和夏季到冬季的过渡。

[9]:Agent with Warm Start and Active Termination for Plane Localization in  3D Ultrasound
标题:三维超声平面定位的温启动主动终止代理
作者:Haoran Dou, Xin Yang, Jikuan Qian, Wufeng Xue, Hao Qin, Xu Wang, Lequan Yu, Shujun Wang, Yi Xiong, Pheng-Ann Heng, Dong Ni
备注:9 pages, 5 figures, 1 table. Accepted by MICCAI 2019 (oral)
链接:https://arxiv.org/abs/1910.04331

摘要:标准平面定位是超声诊断的关键。在产前的美国,几十个标准的平面是手工获取的二维探头。它既耗时又依赖于操作员。相比之下,一次拍摄包含多个标准平面的3D-US具有更少的用户依赖性和更高的效率的固有优势。然而,由于巨大的搜索空间和巨大的胎儿体位变化,人工平面定位在超声体积上具有挑战性。在这项研究中,我们提出一个新的强化学习(RL)架构,以自动定位胎儿大脑标准平面在3D-US中。我们的贡献是两倍。首先,我们在RL框架中配置了一个具有里程碑意识的对齐模块,为代理行为提供了温暖的开始和强大的空间边界,从而确保了其有效性。其次,提出了一种基于递归神经网络的主动终止agent交互过程的策略。这提高了定位系统的精度和效率。在我们内部的大型数据集上进行了广泛的验证,我们的方法对经小脑和经丘脑平面定位的准确度分别达到3.4mm/9.6°和2.7mm/9.1°。我们提出的RL框架是通用的,有可能提高超声扫描的效率和标准化。

[10]:Practical License Plate Recognition in Unconstrained Surveillance  Systems with Adversarial Super-Resolution
标题:对抗超分辨率无约束监控系统中的车牌识别
作者:Younkwan Lee, Jiwon Jun, Yoojin Hong, Moongu Jeon
备注:Accepted at VISAPP, 2019
链接:https://arxiv.org/abs/1910.04324

摘要:尽管目前大多数车牌识别应用已经有了很大的进步,但它们仍然局限于理想的环境中,在这种环境中,训练数据被精心地用受限场景注释。本文提出了一种新的车牌识别方法来处理无约束的真实交通场景。为了克服这些困难,我们采用了对抗性的超分辨率(SR)和一阶段的字符分割与识别。结合基于VGG网络的深卷积网络,该方法提供了简单而合理的训练过程。此外,我们还引入了GIST-LP,这是一个具有挑战性的LP数据集,可以有效地从无约束的监视场景中采集图像样本。在AOLP和GIST-LP数据集上的实验结果表明,该方法在不进行特定场景自适应的情况下,在精度上优于现有的LP识别方法,并且在SR结果中提供了比原始数据更易于理解的视觉增强。

[11]:Deep localization of protein structures in fluorescence microscopy  images
标题:荧光显微镜图像中蛋白质结构的深度定位
作者:Muhammad Tahir, Saeed Anwar, Ajmal Mian
链接:https://arxiv.org/abs/1910.04287

摘要:从荧光显微镜图像中精确定位蛋白质是一项具有挑战性的任务,因为类间相似性和类内差异在解决多类分类问题中引起了严重的关注。传统的基于机器学习的图像预测严重依赖于预处理,如归一化和分割,然后在分类前进行手工特征提取,以识别有用的、信息丰富的以及特定于应用的特征。我们提出了一种端到端的蛋白质定位卷积神经网络(PLCNN)。这使得蛋白质定位图像的分类更加准确可靠。PLCNN直接处理原始图像而不涉及任何预处理步骤,并且不需要对特定数据集进行任何自定义或参数调整就可以生成输出。我们的方法的输出是根据网络产生的概率来计算的。对5个公开的基准数据集进行了实验分析。PLCNN始终优于机器学习和深层架构中的现有最先进方法。

[12]:Image Quality Assessment for Rigid Motion Compensation
标题:刚体运动补偿的图像质量评价
作者:Alexander Preuhs, Michael Manhart, Philipp Roser, Bernhard Stimpel, Christopher Syben, Marios Psychogios, Markus Kowarschik, Andreas Maier
备注:Accepted at MedNeurips 2019
链接:https://arxiv.org/abs/1910.04254

摘要:用c臂锥束计算机断层扫描(cBCT)进行中风诊断成像可以缩短血管内治疗的时间。然而,与螺旋CT相比,长时间的采集增加了患者僵硬运动的可能性。刚性运动会破坏重建过程中假设的几何对齐,导致图像模糊或条纹伪影。为了重建几何结构,我们采用神经网络引导的自聚焦方法,根据重建切片的图像信息,对运动轨迹进行估计,并训练其回归投影误差。该网络通过19名患者的cBCT扫描进行训练,并使用另一名测试患者进行评估。与常用的基于熵的运动估计方法相比,该方法能很好地适应未知的运动幅度,在运动估计基准上取得了更好的效果。
NLP方向重复(10篇)

[1]:Domain-Relevant Embeddings for Medical Question Similarity
标题:医学问题相似性的领域相关嵌入
作者:Clara McCreery, Namit Katariya, Anitha Kannan, Manish Chablani, Xavier Amatriain
备注:8-page version of a 4-page extended abstract that was accepted to ML4H conference at NeurIPS 2019
链接:https://arxiv.org/abs/1910.04192

摘要:在线询问医疗问题的速度大大超过了合格人员的回答能力,导致许多问题得不到回答或回答不充分。这些问题中的许多并不是唯一的,可靠地识别相似的问题将使问答模式更加高效和有效。虽然许多研究工作都集中在一般问题的相似性问题上,但这些方法并不能很好地推广到医学领域,因为医学领域通常需要医学专家来确定语义相似性。在本文中,我们展示了一个半监督的方法如何预先训练一个关于医学问题-答案对的神经网络是一个特别有用的中间任务,最终目的是确定医学问题的相似性。当其他的预训练任务在这个任务上的准确率低于78.7%时,我们的模型在相同的训练样本数下达到了82.6%的准确率,在更小的训练集下达到了80.0%的准确率,在使用完整的医学问答数据集时达到了84.5%的准确率。

[2]:Structured Pruning of Large Language Models
标题:大型语言模型的结构化剪枝
作者:Ziheng Wang, Jeremy Wohlwend, Tao Lei
链接:https://arxiv.org/abs/1910.04732

摘要:大型语言模型最近在各种各样的自然语言任务中取得了最先进的性能。同时,这些模型的大小和延迟显著增加,这使得它们的使用成本高昂,并提出了一个有趣的问题:语言模型需要大吗?我们从模型压缩的角度来研究这个问题。提出了一种基于低阶因子分解和增广拉格朗日L0范数正则化的结构化剪枝方法。我们的结构化方法在不同稀疏度下匹配或优于非结构化剪枝基线,从而达到显著的推理速度。我们将我们的方法应用到enwiki8数据集上的最新模型中,只需5个参数就可以得到1.19的困惑分数,远远优于从头开始训练的相同大小的模型。我们还证明了我们的方法可以应用于语言模型的微调,通过在几个下游分类基准上剪枝BERT模型。

[3]:Cross-lingual Alignment vs Joint Training: A Comparative Study and A  Simple Unified Framework
标题:跨语言对齐与联合训练:一个比较研究和一个简单的统一框架
作者:Zirui Wang, Jiateng Xie, Ruochen Xu, Yiming Yang, Graham Neubig, Jaime Carbonell
备注:First two authors contributted equally. Source code is available atthis https URL
链接:https://arxiv.org/abs/1910.04708

摘要:文本的多语种表示学习已经被证明是一种成功的跨语言迁移学习方法。学习这类表达有两种主要模式:(1)对齐,将不同的独立训练的单语表达映射到共享空间;(2)联合训练,使用单语和跨语言目标共同直接学习统一的多语表达。在这篇文章中,我们首先在不同的跨语言任务中直接比较使用这两种方法学习的表征。我们的实证结果揭示了两种方法的优缺点,并显示了联合训练与联合训练的相对绩效是任务相关的。基于这一分析,我们提出了一个简单新颖的框架,将这两种先前互不相容的方法结合起来。在不同任务上的大量实验表明,我们提出的框架减轻了这两种方法的局限性,并且在MUSE双语词典归纳(BLI)基准上优于现有方法。我们进一步证明,我们提出的框架可以推广到上下文化的表示,并在CoNLL跨语言的ner基准上获得最新的结果。

[4]:Universal Adversarial Perturbation for Text Classification
标题:文本分类中的通用对抗扰动
作者:Hang Gao, Tim Oates
链接:https://arxiv.org/abs/1910.04618

摘要:给出了一种最先进的深度神经网络文本分类器,证明了在嵌入空间中存在一个普遍的极小扰动向量,该扰动向量导致自然文本被高概率地错误分类。与图像不同,文本的长度是可变的,因此我们将“普遍性”定义为“令牌不可知论”,即对每个令牌应用一个扰动,从而在序列级产生不同的灵活大小的扰动。我们提出了一种计算普遍对抗扰动的算法,并证明了最先进的深部神经网络对这些扰动非常脆弱,即使它们基本上保留了令牌的邻域。我们还展示了如何使用这些对抗性扰动来生成对抗性文本样本。普遍的“标记不可知”对抗扰动的惊人存在可能揭示文本分类器的重要特性。

[5]:Language Transfer for Early Warning of Epidemics from Social Media
标题:从社交媒体进行流行病预警的语言迁移
作者:Mattias Appelgren, Patrick Schrempf, Matúš Falis, Satoshi Ikeda, Alison Q O'Neil
备注:Artificial Intelligence for Humanitarian Assistance and Disaster Response Workshop (AI+HADR) at NeurIPS 2019
链接:https://arxiv.org/abs/1910.04519

摘要:可以分析社交媒体上的声明,以确定出现红旗医疗症状的个人,从而及早发现流感等疾病的传播。由于疾病不尊重文化边界,可能在讲不同语言的人群之间传播,我们希望建立多语言模型。然而,为每种语言训练模型所需的数据可能很难、昂贵且耗时,特别是对于低资源语言。我们以日语为目标语言,探索一种语言中的数据可以用来为另一种语言建立模型的方法。我们使用多语言模型评估机器翻译数据和零镜头传输的训练策略。我们发现,源语的选择影响了表演,中日是比英日更好的语言对。对机器翻译数据的培训显示出希望,特别是在与少量目标语言数据一起使用时。

[6]:Learning Only from Relevant Keywords and Unlabeled Documents
标题:仅从相关关键字和未标记文档中学习
作者:Nontawat Charoenphakdee, Jongyeong Lee, Yiping Jin, Dittaya Wanvarie, Masashi Sugiyama
备注:EMNLP2019
链接:https://arxiv.org/abs/1910.04385

摘要:我们考虑一个文档分类问题,其中没有文档标签,但只给出目标类和未标记文档的相关关键字。虽然基于伪标记的启发式方法已经被考虑在内,但是对这个问题的理论理解仍然有限。此外,以往的方法不能很容易地将成熟的技术融入到有监督的文本分类中。在本文中,我们提出了一个理论上有保证的学习框架,该框架易于实现,并且具有灵活的模型选择,例如线性模型或神经网络。我们演示了如何有效地优化接收机工作特性曲线(AUC)下的面积,并讨论了如何调整它以优化其他著名的评估指标,如准确性和F1测度。最后,我们使用基准数据集展示了我们的框架的有效性。

[7]:FUSE: Multi-Faceted Set Expansion by Coherent Clustering of Skip-grams
标题:FUSE:跳转图的相干聚类多面集展开
作者:Wanzheng Zhu, Hongyu Gong, Jiaming Shen, Chao Zhang, Jingbo Shang, Suma Bhat, Jiawei Han
链接:https://arxiv.org/abs/1910.04345

摘要:集合扩展旨在将一小部分种子实体扩展为一整套相关实体。现有的方法大多假设输入种子集是明确的,并且完全忽略了种子实体的多方面语义。因此,给定种子集{“Canon”、“Sony”、“Nikon”},先前的方法返回一组混合实体,这些实体要么是相机品牌,要么是日本公司。本文研究了多面集扩展的任务,该任务的目标是捕获种子集中的所有语义面,并返回多个实体集,每个实体集对应一个语义面。我们提出了一个无监督的框架FUSE,它由三个主要部分组成:(1)方面发现模块:通过提取和聚类每个种子实体的跳过图来识别每个种子实体的所有语义方面;(2)方面融合模块:通过优化公式发现整个种子集的共享语义方面,(3)实体扩展模块:利用一种迭代算法对每个语义方面进行扩展,该算法具有较强的抗跳格噪声能力。大量实验表明,我们的算法FUSE能够准确地识别种子集的多个语义方面,并为每个方面生成高质量的实体。

[8]:Learning to Contextually Aggregate Multi-Source Supervision for Sequence  Labeling
标题:序列标注中多源监控的上下文聚合学习
作者:Ouyu Lan, Xiao Huang, Bill Yuchen Lin, He Jiang, Liyuan Liu, Xiang Ren
备注:13 pages, 7 figures
链接:https://arxiv.org/abs/1910.04289

摘要:序列标记是各种自然语言处理问题的基本框架。在有监督的学习场景中,标注的质量和数量对其性能有很大的影响。在许多情况下,地面真实性标签的收集成本高、耗时长,甚至根本不存在,而不完美的标签可以很容易地从不同的域访问或传输。本文提出了一个新的框架ConNet(ConNet)来进行多个来源的不完全标注的训练。它学习每个弱监督源的表示,并通过上下文感知注意机制动态聚合它们。最后,建立了一个反映多方共识的模型。我们在多源学习的两个实际环境中评估了所提出的框架:具有群组注释的学习和无监督的跨域模型自适应。大量的实验结果表明,我们的模型在两种情况下都比现有的方法有显著的改进。

[9]:Spoken Language Identification using ConvNets
标题:基于ConvNets的口语识别
作者:Sarthak, Shikhar Shukla, Govind Mittal
备注:2019 European Conference on Ambient Intelligence
链接:https://arxiv.org/abs/1910.04269

摘要:Language Identification (LI) is an important first step in several speech processing systems. With a growing number of voice-based assistants, speech LI has emerged as a widely researched field. To approach the problem of identifying languages, we can either adopt an implicit approach where only the speech for a language is present or an explicit one where text is available with its corresponding transcript. This paper focuses on an implicit approach due to the absence of transcriptive data. This paper benchmarks existing models and proposes a new attention based model for language identification which uses log-Mel spectrogram images as input. We also present the effectiveness of raw waveforms as features to neural network models for LI tasks. For training and evaluation of models, we classified six languages (English, French, German, Spanish, Russian and Italian) with an accuracy of 95.4% and four languages (English, French, German, Spanish) with an accuracy of 96.3% obtained from the VoxForge dataset. This approach can further be scaled to incorporate more languages.

[10]:A Closer Look At Feature Space Data Augmentation For Few-Shot Intent  Classification
标题:少数镜头意图分类的特征空间数据增强研究
作者:Varun Kumar, Hadrien Glaude, Cyprien de Lichy, William Campbell
备注:Accepted at Deep Learning for low-resource NLP workshop @ EMNLP 2019
链接:https://arxiv.org/abs/1910.04176

摘要:新的对话主题和功能不断添加到对话人工智能代理,如亚马逊alexa和苹果Siri。由于数据收集和注释是不可扩展的,而且通常代价高昂,因此只有少数新功能的示例可用,这导致泛化性能差。我们将其描述为几个镜头集成(FSI)问题,其中使用一些示例来介绍新的意图。本文结合BERT等有监督和无监督的表示学习方法,研究了六种特征空间数据增强方法,以提高FSI环境下的分类性能。通过对SNIPS和Facebook对话语料库这两个公共会话数据集的实际实验,我们发现特征空间中的数据增强在传统的转移学习方法之外,为在少量镜头设置下提高意图分类性能提供了一种有效的方法。特别地,我们证明了(a)在潜在空间中的上采样是特征空间增强的竞争基线(b)将两个示例之间的差异添加到新示例中是一种简单而有效的数据增强方法。
中文来自机器翻译,仅供参考。

扫描二维码

获取更多精彩

arXiv Daily


欢迎关注、转发、点击在看
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

新手上路

14

主题

0

回帖

44

积分

新手上路

Rank: 1

积分
44

最新帖子

  • admin admin 2025-01-02

    【文/观察者网 齐倩】1998年,美俄日等16个国家联合建设国际空间站项目,却将中国排除

    帖子: NASA推进空间站商业化,美媒担忧:若延误,

  • Miranda Miranda 2025-01-02

    【环球网报道】据美国《华尔街日报》、《以色列时报》当地时间周二(2024年12月31日)

    帖子: 外媒:消息人士透露,加沙停火谈判又陷僵局

  • admin admin 2025-01-02

    直播吧1月1日讯 NBA常规赛今日继续开打,马刺今日坐镇主场迎战快船,两支球队本赛季有

    帖子: