阿里推首个妆造大模型神力霓裳已在古装剧中投入应用

时间:2024-07-01 来源：原创/投稿/转载作者：管理员点击:

　　近日，阿里大文娱推出了首个妆造大模型 —— 神力霓裳。这一大模型专注于古装剧的妆造创意设计，包含了造型设计、妆发设计和纹样设计三大功能。通过设定朝代、性别、身份等条件，并输入相关提示词，只需2分钟即可生成妆造图片。这项技术已经在古装剧集《掌心》中投入应用。

　　传统的影视美术设计流程往往需要大量的人力与时间成本，而这一大模型的出现为创作者提供了全新的思路，通过 AI 技术来探索无限创意可能性。

　　古装、历史、奇幻类影视作品在造型设计上要求既有古典底蕴，又要有与角色贴合的新意。神力霓裳大模型通过 AI 生成了各种仕女和武官将领的妆造图，呈现了生动逼真的形象和精致的细节质感。AI 技术在影视行业的应用，为创作者们提供了更多灵感来源，帮助他们优化影视作品的创作流程。

　　这个大模型的厉害之处，不仅仅是速度快，更在于它的设计质量。你看那些AI生成的妆造图，仕女们或站或舞，生动逼真，汉服的纹样典雅，色彩搭配得当，简直就像是从古代画中走出来的。武官的造型也同样让人眼前一亮，头盔、铠甲、披风，每一样都透着古画的神韵和新鲜感。

　　随着阿里大文娱推出神力霓裳，不仅解决了影视从业者在造型设计上的耗时问题，同时也为创作者们在中华传统美学中寻找到了新的创作可能性。这种结合传统美学和现代技术的方式，为影视行业的发展带来了新的方向和机遇。神力霓裳的不断更新迭代，将进一步帮助美术团队拓展思维，提升创意水平。

　　欢迎大家加入AiBase交流群，扫码进入，畅谈AI赚钱心得，共享最新行业动态，发现潜在合作伙伴，迎接未来的赚钱机遇！。

　　11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

　　古装剧中女主角常常戴着像违章建筑一样复杂庞大的头饰，引发了网友们的热议。这种头饰大致可分为三类:饰品批发类、发冠类和清宫剧专属的奇葩旗头类。古装剧中的“违章建筑”头饰虽然看起来夸张，但其实并不离谱，有些造型还真实地反映了古代人们对于头饰的繁复和华丽追求。

　　什么?烹饪也有大模型?!没有听错，这就是国产厨电龙头老板电器最新发布——“食神”大模型。数十亿级行业数据，数千万级知识图谱加持，据称还是全球首个。现在大模型的到来，才是真正意义上实现了智能化，为这些家电“注入了灵魂”以老板电器为代表，大模型正在重新焕发传统家电行业。

　　斯坦福大学AI研究团队的Llama3-V开源模型因抄袭指控被推上风口浪尖。该模型被指涉嫌抄袭清华系明星创业公司面壁智能开发的开源模型“小钢炮”MiniCPM-Llama3-V2.5，这一事件迅速在网络上引发广泛关注和热议。这一道歉信在发布后不久被删除，但随后他们再次发布了类似内容的道歉信，表明了他们对此次事件的重视和决心。

　　近日，由山东省人工智能协会、青岛市人工智能产业协会携手发布了国内首个针对生成式人工智能（AIGC）大模型测试的团体标准——《生成式人工智能(AIGC)大模型功能测试指标体系》。标贝科技作为行业领先的AI技术创新及大模型应用企业受邀参与了标准的编制。该标准的发布对于规范大模型的研发和应用具有重要意义，为人工智能产业的健康、快速发展注入了新的活力。AIG

　　谷歌研究院推出了一个名为AGREE的创新框架，旨在增强大型语言模型生成内容和引用的准确性。这一框架通过检索文档中的相关段落来增强大模型生成回答的事实基础，并提供相应的引用，从提高回答的准确性，并为用户提供验证信息真实性的途径。实验结果:研究人员在Llama-2-13b等知名大模型上进行了实验，结果显示AGREE在提升内容回答准确性和引用性方面表现突出。

　　618的风刮到了大模型圈。大模型从“厘”时代跨入了“免费”时代。“便宜赢得不了商战，谁能落地获得利润才是笑到最后。

　　拿到2000万元创业投资的大林，仅过了一年多，便在2024年3月解散了公司。随着大厂大模型开始0元购，“国内AI用户本来就不多，和大厂相比，B端企业拼不过价格，半年几乎没有商单可拿，C端用户推广，更是砸不过。”瑞恩道，“业务场景和盈利模式都不明朗，现在谁敢轻易接手，指定高位站岗。

　　香港大学与百度联合发布了首个智慧城市大模型UrbanGPT，该模型在时空预测技术领域引发了重大突破。时空预测技术的重要性日益凸显，不仅关注交通和人流的流动涵盖了犯罪趋势等多个维度。该模型的泛化能力也为智慧城市的发展提供了有力支持。

　　斯坦福大学的一个AI团队在5月29日发布了一个名为Llama3-V的多模态大模型，并宣称只需500美元就能训练出一个性能与GPT4-V相媲美的模型。该模型随后被指控抄袭，与国内由面壁智能和清华大学自然语言处理实验室联合推出的大模型MiniCPM-Llama3-V2.5存在极高的相似度。刘知远是清华大学计算机系长聘副教授，智源青年科学家，主要研究方向为自然语言处理、知识图谱和社会计算。

　　全球知名的开源平台HuggingFace的联合创始人兼首席执行官Clem在社交平台激动宣布，阿里巴巴最新开源的Qwen2-72B指令微调版本在开源模型排行榜上荣登榜首。为了打造一个更为公正和准确的开源大模型排名，Clem及其团队利用300块H100高性能硬件，对全球100多个主流开源大模型，包括Qwen2、Llama-3、Mixtral、Phi-3等，在BBH、MUSR、MMLU-PRO、GPQA等严格的基准测试集上进行了全面深入的评估。中国在这一领域正逐渐展现出领导者的姿态，引领着全球开源模型的发展潮流。

　　Claude推出的Projects功能，允许用户创建专属Projects项目机器人，上传项目资料作为知识库，定制化输出内容，提高工作效率。

　　Figma Slides是为设计师和他们的团队成员打造的首个演示工具。它利用Figma的设计平台，简化了团队共同创造叙事、吸引观众和制作令人印象深刻的幻灯片的过程。提供简单或专业的设计方式，支持Auto Layout、Advanced Properties等设计功能，并通过实时幻灯片功能如Live Polls、Alignment Scales和Voting等促进双向对话和团队一致性。

　　ComfyUI-Fast-Style-Transfer是一个基于PyTorch框架开发的快速神经风格迁移插件，它允许用户通过简单的操作实现图像的风格转换。该插件基于fast-neural-style-pytorch项目，目前只移植了基础的推理功能。用户可以自定义风格，通过训练自己的模型来实现独特的风格迁移效果。

　　Meta Large Language Model Compiler (LLM Compiler-13b-ftd) 是一个基于Code Llama构建的先进大型语言模型，专注于编译器优化和代码推理。它在预测LLVM优化效果和汇编代码反编译方面展现出了卓越的性能，能够显着提高代码效率和减小代码体积。

　　Meta Large Language Model Compiler (LLM Compiler-13b) 是基于Code Llama构建的，专注于代码优化和编译器推理的先进大型语言模型。它在编译器优化任务上展现出比现有公开可用的大型语言模型更强的理解能力，能够完美模拟编译器输出20%的时间。LLM Compiler提供了两种模型尺寸：7B和13B参数，针对不同的服务和延迟需求进行了训练。该模型是免费的，适用于研究和商业用途，旨在支持编译器研究人员和工程师，并激发创新工具的开发。

　　NVIDIA Broadcast App 是一款利用人工智能技术，为直播和视频会议提供高质量语音和视频效果的应用。它通过智能降噪、虚拟背景、眼神接触增强等功能，为用户提供专业级别的直播体验。这款应用特别适合内容创作者、游戏主播和需要进行远程视频会议的专业人士。它的优势在于能够显着提升视频内容的质量，同时简化直播流程，无需昂贵的硬件设备。

　　Friend是一款领先的开源AI穿戴设备，它通过连接移动设备，提供自动、高质量的会议、聊天和语音备忘录的实时转录服务。它具备实时AI音频处理能力，低功耗蓝牙技术，以及开源软件设计，使得用户能够方便地访问和贡献代码。该产品以其便携性、实用性和开源性，为需要高效记录和管理对话内容的用户提供了一个创新解决方案。

　　FRIEND NECKLACE是一款开源的可穿戴AI助手，具备个性化AI对话和反馈功能。它是一个集AI笔记、提醒、建议等多功能于一体的智能设备。产品完全开源，所有数据存储在用户的手机上，保证了数据的隐私和安全。

　　Figma AI 是一个集成在 Figma 设计平台中的人工智能工具集，旨在通过智能技术提升设计师的工作效率和创造力。它通过快速生成初稿、智能重写文本、自动命名图层、一键去除背景、实时翻译和内容生成等功能，帮助设计师专注于设计细节，从而加速从初稿到最终产品的整个设计流程。

　　llama-agents 是一个异步优先的框架，用于构建、迭代和生产化多智能体系统，包括多智能体通信、分布式工具执行、人工在环等。每个智能体被视为一个服务，不断处理传入的任务。智能体从消息队列中拉取和发布消息。系统顶部是控制平面，它跟踪正在进行的任务，网络中的服务，并决定哪个服务应该处理任务的下一步。

　　LLM Compiler-7b-ftd是由Meta开发的大型语言模型，它基于Code Llama，针对代码优化和编译器推理进行了改进。它在预测LLVM优化效果方面表现卓越，能够完美模拟编译器输出，是编译器优化任务的理想工具。

　　LLM Compiler-7b是Meta开发的一款专注于代码优化和编译器推理的大型语言模型。它基于Code Llama模型，通过深度学习优化代码，支持编译器中间表示、汇编语言和优化的理解。此模型在减少代码大小和从汇编到编译器中间表示的反编译方面展现出卓越的性能，是编译器研究人员和工程师的有力工具。

　　RAG Search API是一个由thinkany.ai开发的智能搜索API，它利用RAG（Retrieval-Augmented Generation）技术，结合了检索和生成的特点，为用户提供高效、准确的信息检索服务。该API支持自定义配置，包括搜索数量、是否进行重排、过滤等，能够满足不同用户的需求。

　　WebDesignAgent是一个自动化的网站设计代理，能够帮助用户通过文本描述、图片上传或视觉布局，快速创建出美观且功能齐全的网站。它支持多页面的生成和设计，用户可以手动添加、删除或修改网页及其内容，实现个性化定制。此外，它还具备迭代优化功能，根据用户反馈进行精确调整，以及利用视觉模型自主优化网页布局。

　　FiddleCube是一个专注于数据科学领域的产品，它能够快速地从用户的数据中生成问答对，帮助用户评估大型语言模型（LLMs）。它提供了准确的黄金数据集，支持多种问题类型，并能够通过度量标准来评估数据的准确性。此外，FiddleCube还提供了诊断工具，帮助用户找出并改进性能不佳的查询。

　　Magic Patterns是一个由Y Combinator支持的在线平台，专为创始人、工程师和产品领导者设计，以加速UI的交付过程。它利用AI技术帮助用户快速迭代产品组件和设计，支持导出到React或Figma。平台拥有超过10万个由社区生成的组件，覆盖从项目概览到移动UI的多个领域。

　　LazyLLM是一个致力于简化人工智能应用构建流程的开发工具，它通过提供低代码的解决方案，使得开发者即使不了解大模型也能轻松组装包含多个Agent的AI应用。LazyLLM支持一键部署所有模块，跨平台兼容，自动进行网格搜索参数优化，以及高效的模型微调，从而提升应用效果。

　　DigiRL是一个创新的在线强化学习算法，用于训练能够在野外环境中控制设备的智能代理。它通过自主价值评估模型（VLM）来解决开放式的、现实世界中的Android任务。DigiRL的主要优点包括能够利用现有的非最优离线数据集，并通过离线到在线的强化学习来鼓励代理从自身的尝试和错误中学习。该模型使用指令级价值函数来隐式构建自动课程，优先考虑对代理最有价值的任务，并通过步进级价值函数挑选出在轨迹中对目标有贡献的有利动作。

　　Gemma 2是谷歌DeepMind推出的下一代开源AI模型，提供9亿和27亿参数版本，具有卓越的性能和推理效率，支持在不同硬件上以全精度高效运行，大幅降低部署成本。Gemma 2在27亿参数版本中，提供了两倍于其大小模型的竞争力，并且可以在单个NVIDIA H100 Tensor Core GPU或TPU主机上实现，显着降低部署成本。

　　Semantic Kernel是一个集成了大型语言模型（LLMs）如OpenAI、Azure OpenAI和Hugging Face的软件开发工具包（SDK），它允许开发者通过定义可串联的插件，在几行代码内实现与AI的交互。其特色在于能够自动编排AI插件，使用户能够通过LLM生成实现特定目标的计划，并由Semantic Kernel执行该计划。

【责任编辑：管理员】

上一篇：呼和浩特一商家凌晨失火致4死4伤开业不足一年一细节令人费解下一篇：“有待”不可“久待”

随机推荐更多>>