FunAudioLLM 该框架包含两个创新模型:SenseVoice和CosyVoice。SenseVoice用于高精度的多语言语音识别、情感识别和音频事件检测;CosyVoice则用于自然语音生成,支持多语言、音色和情感控制。 01850 AI开源项目# FunAudioLLM
EasyAnimate 它能够生成AI照片和视频,并支持训练Diffusion Transformer的基线模型和Lora模型。用户可以直接使用预训练的EasyAnimate模型生成不同分辨率、约6秒长(24fps,1~144帧)的视频,未来还将支持更长视频的生成。 02670 AI开源项目# EasyAnimate
AtomoVideo AtomoVideo是一个高保真图像到视频(Image-to-Video, I2V)生成框架,能够从输入图像生成高保真视频。它在运动强度和一致性方面优于现有技术,并且可以兼容各种个性化的文本到图像(T2I)模型,无需特定调整。 05160 AI开源项目# AtomoVideo
Swarm Swarm是一个由OpenAI解决方案团队管理的教育框架,旨在探索轻量级、易于使用的多智能体编排技术。它目前是一个实验性的样本框架,主要用于探索多智能体系统的用户友好接口,并非用于生产环境,因此没有官方支持。 02390 AI开源项目# Swarm
JoyHallo 它专注于通过音频驱动视频生成,能够生成高质量的普通话和英语视频内容。该模型通过结合先进的音频特征嵌入技术和半解耦结构,实现了高效的跨语言视频生成能力。 03240 AI开源项目# JoyHallo
Motionshop Motionshop是一个用于将视频中的人物角色替换为3D虚拟形象的框架。它通过视频处理、姿态估计和渲染等技术,将真实人物替换为3D虚拟角色,同时保持视频的自然感和连贯性。 04800 AI开源项目# Motionshop
Mochi 1 Mochi 1是Genmo发布的一个开源的、高保真度的视频生成模型,能够生成高质量的动态视频,并且严格遵循文本提示。Genmo的目标是通过其技术解锁人工智能的“右脑”,即创意和想象力。 03850 AI开源项目# Mochi 1
Seaweed APT Seaweed-APT是一个基于扩散模型(Diffusion Model)和对抗后训练(Adversarial Post-Training)技术的AI工具,专注于实现单步(One-Step)视频和图像生成。 03010 AI开源项目# Seaweed APT