Sounds That Shape: Audio-Driven 3D Mesh Generation with Attribute-Decoupled Score Distillation Sampling

Bumsoo Kim¹, Sanghyun Seo^1,*

¹Chung-Ang University, Republic of Korea

^*Indicates Corresponding Author

ICASSP 2026

Paper (Proceedings will appear) Code & Weight (Soon)

More details coming soon!

"Imagine What Shape Sound Could Take"

Audio: 🔊 (Fire Cracking)

A23D Result:

Audio: 🔊 (Forest)

A23D Result:

Audio: 🔊 (Underwater Bubbling)

A23D Result:

Audio: 🔊 (Snow)

A23D Result:

Audio: 🔊 (Fire Crackling)
Text: 💬 "A vase"

Ours:

Audio: 🔊 (Underwater)
Text: "A shoe"

Ours:

Audio: 🔊 (Forest)
Text: "A cup"

Ours:

Audio: 🔊 (Splashing water)
Text: "A chair"

Ours:

Audio: 🔊 (Null)
Text: 💬 "A chair with fire crackling ..."

Text-to-2D:

Audio: 🔊 (Null)
Text: 💬 "A chair with fire crackling ..."

Text-to-3D:

Audio: 🔊 (Fire Cracking)
Text: 💬 "A Chair"

(pure) Audio-Driven Text-to-3D:

Audio: 🔊 (Fire Crackling)
Text: 💬 "A Chair"

Ours:

Why Gaussian Splatting instead of NeRFs?

Gaussian Splatting offers balanced performance and efficiency on training time, intuition and computing resource. No one want to wait 5+ hours to create simple 3D object indeed. Taking GS as 3D representation allows for fast optimization and easier manipulation of 3D objects within 2 minutes and 12GB VRAM occupancy.
Why SDS?

At the time of this research, SDS-based 3D generation method (e.g., DreamFusion, DreamGaussian) provides substantial flexibility which enables 3D content creation from single condition upon pretrained diffusion models without 3D awareness or cross-modal data requirements. Thanks to this capability, we can realize audio-to-3D system upon pretrained audio-to-image diffusion models for 3D mesh.