强烈建议先阅读:一文弄懂 Diffusion Model
1. 论文信息标题:Multi-Concept Customization of Text-to-Image Diffusion
(资料图片)
作者:Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, Jun-Yan Zhu.
原文链接:https://arxiv.org/pdf/2212.04488.pdf
代码链接:https://www.cs.cmu.edu/~custom-diffusion/
2. 引言最近通过文本生成图像的深度学习相关技术取得了非常大的进展,2021已经成为了图像生成的一个新的milestone,诸如DALL-E和Stable diffusion这种模型都取得了长足的进步,甚至达到了“出圈”的效果。通过简单文本prompts,用户能够生成前所未有的质量的图像。这样的模型可以生成各种各样的对象、风格和场景,并把它们进行组合排序,这让现有的图像生成模型看上去是无所不能的。
但是,尽管这些模型具有多样性和一些泛化能力,用户经常希望从他们自己的生活中合成特定的概念。例如,亲人、朋友、宠物或个人物品和地点,这些都是非常有意义的concept,也和个人对于生成图像的信息有对齐。由于这些概念天生就是个人的,因此在大规模的模型训练过程中很难出现。事后通过详细的文字,来描述这种概念是非常不方便的,也无法保留足够多的视觉细节来生成新的personal的concepts。这就需要模型具有一定的“定制”能力。也就是说如果给定少量用户提供的图像,我们能否用新概念(例如宠物狗或者“月亮门”,如图所示)增强现有的文本到图像扩散模型?经过微调的模型应该能够将它们与现有概念进行概括并生成新的变化。这带来了几个比较严峻的挑战:
首先,模型倾向于遗忘现有概念的含义:例如,在添加“moon gate”这一concept的时候,“moon”的含义就会丢失。其次,由于stable diffusion这样的网络往往参数会超级多,所以在小数据上训练模型,容易造成对训练样本进行过拟合,而且采样中变化也有限。此外,论文还关注了一个更具挑战性的问题,即组group fine-tuning,即能够超越单个个体concept的微调,并将多个概念组合在一起。学习多个新的concepts同时也是存在一定的挑战的,比如 concept mixing以及concept omission。在这项工作中,论文提出了一种fine-tuning技术,即文本到图像扩散模型的“定制扩散”。我们的方法在计算和内存方面都很有效。为了克服上述挑战,新方法固定一小部分模型权重,即文本到潜在特征的key值映射在cross-attention layer中。fine-tuning这些足以更新模型的新concepts。为了防止模型丧失原来强大的表征能力,新方法仅仅使用一小组的图像与目标图像类似的真实图像进行训练。我们还在微调期间引入data的augamation,这可以让模型更快的收敛,并获得更好的结果。论文提出的方法实验是构建在Stable Diffusion之上,并对各种数据集进行了实验,其中最少有四幅训练图像。对于添加单个concept,新提出的方法显示出比相似任务的作品和基线更好的文本对齐和视觉相似性。更重要的是,我们的方法可以有效地组成多个新concepts,而直接对不同的concepts进行组合的方法则遇到困难,经常会省略一个。最后,我们的方法只需要存储一小部分参数(模型权重的3%),消耗的GPU memory非常有限,同时也减少了fine-tuning的时间。
3. 方法总结来讲,论文提出的方法,就是仅更新权重的一小部分,即模型的交叉注意力层。此外,由于目标概念的训练样本很少,所以使用一个真实图像的正则化集,以防止过拟合。
对于Single-Concept Fine-tuning,给定一个预训练的text-to-image diffusion model,我们的目标是在模型中加入一个新的concept,只要给定四张图像和相应的文本描述进行训练。fine-tuning后的模型应保留其先验知识,允许根据文本提示使用新概念生成新的图像类型。这可能具有挑战性,因为更新的文本到图像的映射可能很容易过拟合少数可用图像。所以保证泛化性就非常有必要,也比较有挑战。所以就仅仅fine-tuning新的K和V,而对于query,则保持不变,这样就可以增加新概念的同时,保证模型的表征能力不受到太多的影响。优化目标还是diffusion的形式:
概括起来实际上非常简单,就是训练一个k和v的矩阵,来扩充维度,增加模型的表征能力,使其能生成更为丰富的图像内容。
而对于Multiple-Concept Compositional Fine-tuning,为了对多个概念进行微调,我们将每个概念的训练数据集合并,并使用我们的方法将它们联合训练。为了表示目标概念,我们使用不同的修饰符的
由于我们的方法仅更新与文本特征相对应的key和value投影矩阵,因此我们可以将它们合并,以允许使用多个微调概念生成。让集合
-
如何简单高效地定制自己的文本作画模型?:环球观焦点
强烈建议先阅读:一文弄懂DiffusionModel1 论文信息标题:Multi-ConceptCustomizationofText-to-Ima
-
璧山区父母赡养纠纷律师收费明细
(一)不涉及财产关系的:2000元-30000元 件。上下浮动幅度:20%但收费额不足2000元的按2000元收取。(二)涉及财产关系的,按争议标的额的以下费
-
白萝卜能直接吃吗
关于白萝卜能直接吃吗的内容,包含白萝卜能不能生吃?白萝卜可以生吃吗白萝卜能生吃吗?白萝卜可以生吃吗白萝卜能生吃吗
-
紫光股份(000938.SZ)控股子公司紫光计算机获政府补助2.5亿元
智通财经APP讯,紫光股份发布公告,紫光计算机科技有限公司(简称“紫光计算机”)是公司持股51%的控股子公司。根据2020年4月30日公司与郑州高新
-
全球头条:中邮消费金融借款逾期24年拖欠多久会上征信系统
网贷逾期一般会上征信,有些借贷机构在用户逾期后一天后就会上报给征信机构,而有些借贷机构则是会在几天后上报给征信机构,因为有些借贷机构可
-
盘龙药业董秘回复:公司药源基地种植的金银花主要以自用为主-天天最资讯
盘龙药业(002864)12月30日在投资者关系平台上答复了投资者关心的问题。
-
外媒:2023年中国将迎消费热潮 外国投资者普遍看好中国强劲增长_世界新消息
中国日报网12月28日电据美国消费者新闻与商业频道(CNBC)26日报道,展望未来,策略师和华尔街一些备受关注的投资者认
-
12月29日基金净值:国泰金鹰增长混合最新净值1.3352,涨1.57%-环球新消息
12月29日,国泰金鹰增长混合最新单位净值为1 3352元,累计净值为5 26元,较前一交易日上涨1 57%。历史数据显示该基金近1个月下跌4 42%,近3个
-
天天新消息丨2023元旦扬州汉服非遗文化二日游
择一事,终一生,正是这种匠心,才使得非遗文化能一代一代传承下来。飘逸的汉服暗藏了多少非凡的针法,青青子衿,悠悠我心,映衬着古城的粉墙
-
家庭防疫消毒慎用紫外线设备
消毒是阻断病毒传播的有效方式之一。近日,随着新冠病毒感染者居家隔离人数的增多,如何有效地消毒成为热议话题。有公众提出,紫
-
2023青岛元旦看烟花好去处
青岛方特烟花秀2022年12月30日、2023年1月1日烟花秀时间:20:002022年12月31日烟花秀时间:20:30,00:00(如因特殊情况导致烟花秀无
-
世界快播:360借条借款逾期9天还不起影响征信吗
网贷逾期一般会上征信,有些借贷机构在用户逾期后一天后就会上报给征信机构,而有些借贷机构则是会在几天后上报给征信机构,因为有些借贷机构可
-
亚马逊(AMZN.US)拟推出体育内容独立App 当前要闻
据报道,亚马逊(AMZN US)正在开发一款用于观看体育内容的独立应用程序。报道称,随着美国观众越来越多地从付费电视订阅转向流媒体应用,体育仍
-
焦点精选!后疫情时代,机构看好“居家防护”主线,多只概念股获主力加仓
后疫情时代,机构看好“居家防护”主线,多只概念股获主力加仓
-
2022武汉旅游免费门票怎么预约?|当前头条
2022武汉旅游免费门票怎么预约?1、进入武汉市文化和旅游局微信公众号【点击进入】2、预约时选定游览景区 文旅项目 演出、日期,输入本人身份
-
旷达科技董秘回复:公司对储能业务没有规划
旷达科技(002516)12月28日在投资者关系平台上答复了投资者关心的问题。
-
智飞有加强针了吗-每日时讯
安徽智飞重组蛋白疫苗有加强针了。根据国家卫健委通知,实施加强免疫接和使用智飞龙科马重组新冠病毒疫苗(CHO细胞)完成全程接种满6个月的18岁
-
【新视野】常州武进吸入用新冠疫苗去哪预约接种
武进吸入用新冠疫苗预约接种点名单门诊 接种点名称咨询(预约)电话有否吸入式疫苗开诊时间雪堰镇中心卫生院雪堰院区86159630否12月16日、30日13:00-
-
三元股份: 中信证券股份有限公司关于北京三元食品股份有限公司2022年限制性股票激励计划预留部分股份授予事项之独立财务顾问核查意见
中信证券股份有限公司 关于北京三元食品股份有限公司 事项 之
-
板块异动 | 保障粮食和重要农产品稳定安全供给 农业种植概念股持续大涨
(原标题:板块异动|保障粮食和重要农产品稳定安全供给农业种植概念股持续大涨)智通财经APP获悉,12月27日,受保障粮食和重要农产品稳定安全