Zuxuan Wu - Fudan University

SegDiff: Segmented Trajectory Diffusion for Consistent and Adaptive Robot Manipulation.
European Conference on Computer Vision (ECCV), Malmö, Sweden, Sept., 2026.
Haidong Cao, Wenjun Cao, Quanhao Li, Sicheng Xie, Zhiying Du, Jiaqi Leng, Zuxuan Wu, Yu-Gang Jiang
Seeing Touch from Motion: A Unified Modality-Aware Visuo-Tactile Policy with Tactile Motion Correlation.
European Conference on Computer Vision (ECCV), Malmö, Sweden, Sept., 2026.
Shengqi Xu, Yang Liu, Guojin Zhong, Fanjie Wang, Hu Luo, Hanyu Zhou, WeiYao Zhang, Ziyi Ye, Zuxuan Wu, Yu-Gang Jiang
VLZip: Unified Visual and Textual Compression for Interleaved Long-Context Modeling.
European Conference on Computer Vision (ECCV), Malmö, Sweden, Sept., 2026.
Yuqi Zhang, Cheng Chen, Yuyu Guo, Wenjie Yang, Lingchen Meng, Peng Di, Hang Yu, Zuxuan Wu, Yu-Gang Jiang
Learning Accurate Segmentation Purely from Self-Supervision.
European Conference on Computer Vision (ECCV), Malmö, Sweden, Sept., 2026. code
Zuyao You, Zuxuan Wu, Yu-Gang Jiang
WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing.
European Conference on Computer Vision (ECCV), Malmö, Sweden, Sept., 2026. code
Hui Zhang, Juntao Liu, Zongkai Liu, Liqiang Niu, Fandong Meng, Zuxuan Wu, Yu-Gang Jiang
HAD: Combining Hierarchical Diffusion with Metric-Decoupled RL for End-to-End Driving.
European Conference on Computer Vision (ECCV), Malmö, Sweden, Sept., 2026.
Wenhao Yao, Xinglong Sun, Zhenxin Li, Shiyi Lan, Zi Wang, José M. Álvarez, Zuxuan Wu
Ask-to-Clarify: Resolving Instruction Ambiguity through Multi-turn Dialogue.
IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Pittsburgh, USA, Oct., 2026.
Xingyao Lin, Xinghao Zhu, Tianyi Lu, Sicheng Xie, Hui Zhang, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang
Enabling Faithful Camera Control in Video Diffusion through Geometry-Flow-Guided Noise Warping.
International Conference on Machine Learning (ICML), Seoul, South Korea, July, 2026. code
Haoyu Zhao, Jiaxi Gu, Haoran Chen, Qingping Zheng, Yeying Jin, Hongyi Yang, Junqi Cheng, Yuang Zhang, Zenghui Lu, Huan Yu, Jie Jiang, Peng Shu, Zuxuan Wu, Yu-Gang Jiang
VideoLoom: A Video Large Language Model for Joint Spatial-Temporal Understanding.
International Conference on Machine Learning (ICML), Seoul, South Korea, July, 2026. code
Jiapeng Shi, Junke Wang, Zuyao You, Bo He, Zuxuan Wu
CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Denver, USA, June, 2026. code
Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang
FluxMem: Adaptive Hierarchical Memory for Streaming Video Understanding.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Denver, USA, June, 2026. code
Yiweng Xie, Bo He, Junke Wang, Xiangyu Zheng, Ziyi Ye, Zuxuan Wu
HandWorld: Hand-Centric Unified Video Action Generation.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Denver, USA, June, 2026.
Zhihao Sun, Zhiying Du, Xitong Yang, Zuxuan Wu
FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Denver, USA, June, 2026. code
Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu
Human2Robot: Learning Robot Actions from Paired Human-Robot Videos.
The AAAI Conference on Artificial Intelligence (AAAI), Singapore, Jan., 2026.
Sicheng Xie, Haidong Cao, Zejia Weng, Zhen Xing, Haoran Chen, Shiwei Shen, Jiaqi Leng, Zuxuan Wu, Yu-Gang Jiang
DriveSuprim: Towards Precise Trajectory Selection for End-to-End Planning.
The AAAI Conference on Artificial Intelligence (AAAI), Singapore, Jan., 2026. code
Wenhao Yao, Zhenxin Li, Shiyi Lan, Zi Wang, Xinglong Sun, José M. Álvarez, Zuxuan Wu

Boosting Multimodal Instance Understanding via Explicit Visual Prompt Instruction Tuning.
Advances in Neural Information Processing Systems (NeurIPS), San Diego, USA, Dec., 2025.
Wujian Peng, Lingchen Meng, Yitong Chen, Yiweng Xie, Yang Liu, Tao Gui, Hang Xu, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang
ForgerySleuth: Empowering Multimodal Large Language Models for Image Manipulation Detection.
Advances in Neural Information Processing Systems (NeurIPS), San Diego, USA, Dec., 2025.
Zhihao Sun, Haoran Jiang, Haoran Chen, Yixin Cao, Xipeng Qiu, Zuxuan Wu, Yu-Gang Jiang
Seg2Any: Open-set Segmentation-Mask-to-Image Generation with Precise Shape and Semantic Control.
Advances in Neural Information Processing Systems (NeurIPS), San Diego, USA, Dec., 2025.
Danfeng li, Hui Zhang, Sheng Wang, Jiacheng Li, Zuxuan Wu
UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation.
Advances in Neural Information Processing Systems (NeurIPS), San Diego, USA, Dec., 2025.
Rui Tian, Mingfei Gao, Mingze Xu, Jiaming Hu, Jiasen Lu, Zuxuan Wu, Yinfei Yang, Afshin Dehghan
OmniGen-AR: AutoRegressive Any-to-Image Generation.
Advances in Neural Information Processing Systems (NeurIPS), San Diego, USA, Dec., 2025.
Junke Wang, Xun Wang, Qiushan Guo, Peize Sun, Weilin Huang, Zuxuan Wu, Yu-Gang Jiang
MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance.
International Conference on Computer Vision (ICCV), Hawaii, USA, Oct., 2025.
Quanhao Li, Zhen Xing, Rui Wang, Hui Zhang, Qi Dai, Zuxuan Wu
MotionFollower: Editing Video Motion via Score-Guided Diffusion.
International Conference on Computer Vision (ICCV), Hawaii, USA, Oct., 2025.
Shuyuan Tu, Qi Dai, Zihao Zhang, Sicheng Xie, Zhi-Qi Cheng, Chong Luo, Xintong Han, Zuxuan Wu, Yu-Gang Jiang
REDUCIO! Generating 1K Video within 16 Seconds using Extremely Compressed Motion Latents.
International Conference on Computer Vision (ICCV), Hawaii, USA, Oct., 2025.
Rui Tian, Qi Dai, Jianmin Bao, Kai Qiu, Yifan Yang, Chong Luo, Zuxuan Wu, Yu-Gang Jiang
AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction.
International Conference on Computer Vision (ICCV), Hawaii, USA, Oct., 2025.
Zhen Xing, Qi Dai, Zejia Weng, Zuxuan Wu, Yu-Gang Jiang
VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks.
International Conference on Computer Vision (ICCV), Hawaii, USA, Oct., 2025.
Shiduo Zhang, Zhe Xu, Peiju Liu, Xiaopeng Yu, Yuan Li, Qinghui Gao, Zhaoye Fei, Zhangyue Yin, Zuxuan Wu, Yu-Gang Jiang, Xipeng Qiu
Hydra-NeXt: Robust Closed-Loop Driving with Open-Loop Training.
International Conference on Computer Vision (ICCV), Hawaii, USA, Oct., 2025.
Zhenxin Li, Shihao Wang, Shiyi Lan, Zhiding Yu, Zuxuan Wu, Jose M. Alvarez
Achieving More with Less: Additive Prompt Tuning for Rehearsal-Free Class-Incremental Learning.
International Conference on Computer Vision (ICCV), Hawaii, USA, Oct., 2025.
Haoran Chen, Ping Wang, Zihan Zhou, Xu Zhang, Zuxuan Wu, Yu-Gang Jiang
CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation.
International Conference on Computer Vision (ICCV), Hawaii, USA, Oct., 2025.
Hui Zhang, Dexiang Hong, Yitong Wang, Jie Shao, Xinglong Wu, Zuxuan Wu, Yu-Gang Jiang
Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis.
International Conference on Computer Vision (ICCV), Hawaii, USA, Oct., 2025.
Peng Zheng, Junke Wang, Yi Chang, Yizhou Yu, Rui Ma, Zuxuan Wu
EDEN: Enhanced Diffusion for High-quality Large-motion Video Frame Interpolation.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, USA, June, 2025.
Zihao Zhang, Haoran Chen, Haoyu Zhao, Guansong Lu, Yanwei Fu, Hang Xu, Zuxuan Wu
BlockDance: Reuse Structurally Similar Spatio-Temporal Features to Accelerate Diffusion Transformers.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, USA, June, 2025.
Hui Zhang, Tingwei Gao, Jie Shao, Zuxuan Wu
StableAnimator: High-Quality Identity-Preserving Human Image Animation.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, USA, June, 2025.
Shuyuan Tu, Zhen Xing, Xintong Han, Zhi-Qi Cheng, Qi Dai, Chong Luo, Zuxuan Wu

SEGIC: Unleashing the Emergent Correspondence for In-Context Segmentation.
European Conference on Computer Vision (ECCV), Milano, Italy, Sept., 2024.
Lingchen Meng, Shiyi Lan, Hengduo Li, Jose M. Alvarez, Zuxuan Wu, Yu-Gang Jiang
PromptFusion: Decoupling Stability and Plasticity for Continual Learning.
European Conference on Computer Vision (ECCV), Milano, Italy, Sept., 2024.
Haoran Chen, Zuxuan Wu, Xintong Han, Menglin Jia, Yu-Gang Jiang
MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing.
European Conference on Computer Vision (ECCV), Milano, Italy, Sept., 2024.
Haoyu Zhao, Tianyi Lu, Jiaxi Gu, Xing Zhang, Qingping Zheng, Zuxuan Wu, Hang Xu, Yu-Gang Jiang
OmniViD: A Generative Framework for Universal Video Understanding.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, USA, June, 2024.
Junke Wang, Dongdong Chen, Chong Luo, Bo He, Lu Yuan, Zuxuan Wu, Yu-Gang Jiang
MotionEditor: Editing Video Motion via Content-Aware Diffusion.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, USA, June, 2024. code
Shuyuan Tu, Qi Dai, Zhi-Qi Cheng, Han Hu, Xintong Han, Zuxuan Wu, Yu-Gang Jiang
SimDA: Simple Diffusion Adapter for Efficient Video Generation.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, USA, June, 2024.
Zhen Xing, Qi Dai, Han Hu, Zuxuan Wu, Yu-Gang Jiang
Learning to Rank Patches for Unbiased Image Redundancy Reduction.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, USA, June, 2024.
Yang Luo, Zhineng Chen, Peng Zhou, Zuxuan Wu, Xieping Gao, Yu-Gang Jiang
Synthesize Diagnose and Optimize: Towards Fine-Grained Vision-Language Understanding.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, USA, June, 2024. code
Wujian Peng, Sicheng Xie, Zuyao You, Shiyi Lan, Zuxuan Wu
BEVNeXt: Reviving Dense BEV Frameworks for 3D Object Detection.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, USA, June, 2024.
Zhenxin Li, Shiyi Lan, Jose M. Alvarez, Zuxuan Wu

Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation.
Advances in Neural Information Processing Systems (NeurIPS), New Orleans, USA, Dec., 2023.
Haoran Chen, Xintong Han, Zuxuan Wu, Yu-Gang Jiang
Learning from Rich Semantics and Coarse Locations for Long-tailed Object Detection.
Advances in Neural Information Processing Systems (NeurIPS), New Orleans, USA, Dec., 2023. code
Lingchen Meng, Xiyang Dai, Jianwei Yang, Dongdong Chen, Yinpeng Chen, Mengchen Liu, Yi-Ling Chen, Zuxuan Wu, Lu Yuan, Yu-Gang Jiang
Implicit Temporal Modeling with Learnable Alignment for Video Recognition.
International Conference on Computer Vision (ICCV), Paris, France, Oct., 2023 (Oral) code
Shuyuan Tu, Qi Dai, Zuxuan Wu, Zhi-Qi Cheng, Han Hu, Yu-Gang Jiang
Open-VCLIP: Transforming CLIP to an Open-vocabulary Video Model via Interpolated Weight Optimization.
International Conference on Machine Learning (ICML), Hawaii, USA, July, 2023
Zejia Weng, Xitong Yang, Ang Li, Zuxuan Wu, Yu-Gang Jiang
ResFormer: Scaling ViTs with Multi-Resolution Training.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, Canada, June, 2023
Rui Tian, Zuxuan Wu, Qi Dai, Han Hu, Yu Qiao, Yu-Gang Jiang
SVFormer: Semi-Supervised Video Transformer for Action Recognition.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, Canada, June, 2023
Zhen Xing, Qi Dai, Han Hu, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang
Detection Hub: Unifying Object Detection Datasets via Query Adaptation on Language Embedding.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, Canada, June, 2023
Lingchen Meng, Xiyang Dai, Yinpeng Chen, Pengchuan Zhang, Dongdong Chen, Mengchen Liu, Jianfeng Wang, Zuxuan Wu, Lu Yuan, Yu-Gang Jiang
Look Before You Match: Instance Understanding Matters in Video Object Segmentation.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, Canada, June, 2023
Junke Wang, Dongdong Chen, Zuxuan Wu, Chong Luo, Chuanxin Tang, Xiyang Dai, Yucheng Zhao, Yujia Xie, Lu Yuan, Yu-Gang Jiang
Masked Video Distillation: Rethinking Masked Feature Modeling for Self-supervised Video Representation Learning.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, Canada, June, 2023
Rui Wang, Dongdong Chen, Zuxuan Wu, Yinpeng Chen, Xiyang Dai, Mengchen Liu, Lu Yuan, Yu-Gang Jiang
Prototypical Residual Networks for Anomaly Detection and Localization.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, Canada, June, 2023
Hui Zhang, Zuxuan Wu, Zheng Wang, Zhineng Chen, Yu-Gang Jiang
Enhancing the Self-Universality for Transferable Targeted Attacks.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, Canada, June, 2023
Zhipeng Wei, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang
Vision Transformers are Good Mask Auto-Labelers.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, Canada, June, 2023
Shiyi Lan, Xitong Yang, Zhiding Yu, Zuxuan Wu, Jose M. Alvarez, Anima Anandkumar
Towards Scalable Neural Representation for Diverse Videos.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Vancouver, Canada, June, 2023
Bo He, Xitong Yang, Hanyu Wang, Zuxuan Wu, Hao Chen, Shuaiyi Huang, Yixuan Ren, Ser-Nam Lim, Abhinav Shrivastava
Resolving Task Confusion in Dynamic Expansion Architectures for Class Incremental Learning.
The AAAI Conference on Artificial Intelligence (AAAI), Washington DC, USA, Feb., 2023
Bingchen Huang, Zhineng Chen, Peng Zhou, Jiayin Chen, Zuxuan Wu

OmniVL: One Foundation Model for Image-Language and Video-Language Tasks.
Advances in Neural Information Processing Systems (NeurIPS), New Orleans, USA, Dec., 2022.
Junke Wang, Dongdong Chen, Zuxuan Wu, Chong Luo, Luowei Zhou, Yucheng Zhao, Yujia Xie, Ce Liu, Yu-Gang Jiang, Lu Yuan
Semi-Supervised Vision Transformers.
European Conference on Computer Vision (ECCV), Tel Aviv, October, 2022. code
Zejia Weng, Xitong Yang, Ang Li, Zuxuan Wu, Yu-Gang Jiang
Efficient Video Transformers with Spatial-Temporal Token Selection.
European Conference on Computer Vision (ECCV), Tel Aviv, October, 2022. code
Junke Wang, Xitong Yang, Hengduo Li, Li Liu, Zuxuan Wu, Yu-Gang Jiang
Semi-Supervised Single-View 3D Reconstruction via Prototype Shape Priors.
European Conference on Computer Vision (ECCV), Tel Aviv, October, 2022. code
Zhen Xing, Hengduo Li, Zuxuan Wu, Yu-Gang Jiang
BEVT: BERT Pretraining of Video Transformers.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, USA, June, 2022 code
Rui Wang, Dongdong Chen, Zuxuan Wu, Yinpeng Chen, Xiyang Dai, Mengchen Liu, Yu-Gang Jiang, Luowei Zhou, Lu Yuan
Cross-Modal Transferable Adversarial Attacks from Images to Videos.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, USA, June, 2022
Zhipeng Wei, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang
AdaViT: Adaptive Vision Transformers for Efficient Image Recognition.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, USA, June, 2022
Lingchen Meng, Hengduo Li, Bor-Chun Chen, Shiyi Lan, Zuxuan Wu, Yu-Gang Jiang, Ser-Nam Lim
ObjectFormer for Image Manipulation Detection and Localization.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, USA, June, 2022
Junke Wang, Zuxuan Wu, Jingjing Chen, Xintong Han, Abhinav Shrivastava, Ser-Nam Lim, Yu-Gang Jiang
Flag: Adversarial data augmentation for graph neural networks.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), New Orleans, USA, June, 2022
Kezhi Kong, Guohao Li, Mucong Ding, Zuxuan Wu, Chen Zhu, Bernard Ghanem, Gavin Taylor, Tom Goldstein
Boosting the Transferability of Video Adversarial Examples via Temporal Translation.
The AAAI Conference on Artificial Intelligence (AAAI), Virtual, Feb., 2022
Zhipeng Wei, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang
Attacking Video Recognition Models with Bullet-Screen Comments.
The AAAI Conference on Artificial Intelligence (AAAI), Virtual, Feb., 2022
Kaichen, Zhipeng Wei, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang
Towards Transferable Adversarial Attacks on Vision Transformers.
The AAAI Conference on Artificial Intelligence (AAAI), Virtual, Feb., 2022
Zhipeng Wei, Jingjing Chen, Micah Goldblum, Zuxuan Wu, Tom Goldstein, Yu-Gang Jiang
Rethinking Pseudo Labels for Semi-Supervised Object Detection.
The AAAI Conference on Artificial Intelligence (AAAI), Virtual, Feb., 2022
Hengduo Li, Zuxuan Wu, Abhinav Shrivastava, Larry Davis

Encoding Robustness to Image Style via Adversarial Feature Perturbations.
Advances in Neural Information Processing Systems (NeurIPS), Virtual, Dec., 2021.
Manli Shu, Zuxuan Wu, Micah Goldblum, Tom Goldstein
Deep Video Inpainting Detection.
British Machine Vision Conference (BMVC), Virtual, Oct., 2021
Peng Zhou, Ning Yu, Zuxuan Wu, Larry Davis, Abhinav Shrivastava, Ser-Nam Lim
GTA: Global Temporal Attention for Video Action Understanding.
British Machine Vision Conference (BMVC), Virtual, Oct., 2021
Bo He, Xitong Yang, Zuxuan Wu, Hao Chen, Ser-Nam Lim, Abhinav Shrivastava
VideoLT: Large-scale Long-tailed Video Recognition.
International Conference on Computer Vision (ICCV), Virtual, Oct., 2021
Xing Zhang, Zuxuan Wu, Zejia Weng, Huazhu Fu, Jingjing Chen, Yu-Gang Jiang, Larry Davis
Exploring Visual Engagement Signals for Representation Learning.
National Conference on Computer Vision (ICCV), Virtual, Oct., 2021
Menglin Jia, Zuxuan Wu, Austin Reiter, Claire Cardie, Serge Belongie, Ser-Nam Lim
2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Recognition.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Virtual, June, 2021
Hengduo Li, Zuxuan Wu, Abhinav Shrivastava, Larry S. Davis
Intentonomy: a Dataset and Study towards Human Intent Understanding.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Virtual, June, 2021 (Oral) code
Menglin Jia, Zuxuan Wu, Austin Reiter, Claire Cardie, Serge Belongie, Ser-Nam Lim
Efficient Object Embedding for Manipulated Image Retrieval.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Virtual, June, 2021
Bor-Chun Chen, Zuxuan Wu, Larry S. Davis, Ser-Nam Lim

Making an Invisibility Cloak: Real World Adversarial Attacks on Object Detectors.
European Conference on Computer Vision (ECCV), Virtual, August, 2020. code
Zuxuan Wu, Ser-Nam Lim, Larry S. Davis, Tom Goldstein
Learning from Noisy Anchors for One-stage Object Detection.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Virtual, June, 2020
Hengduo Li, Zuxuan Wu, Chen Zhu, Caiming Xiong, Richard Socher, Larry S. Davis
LiteEval: A Coarse-to-Fine Framework for Resource Efficient Video Recognition.
Advances in Neural Information Processing Systems (NeurIPS), Vancouver, Canada, Dec., 2019. code
Zuxuan Wu, Caiming Xiong, Yu-Gang Jiang, Larry S. Davis
FiNet: Compatible and Diverse Fashion Image Inpainting.
International Conference on Computer Vision (ICCV), Seoul, Korea, Oct., 2019. (Oral)
Xintong Han, Zuxuan Wu, Weilin Huang, Matthew R. Scott, Larry S. Davis
ACE: Adapting to Changing Environments for Semantic Segmentation.
International Conference on Computer Vision (ICCV), Seoul, Korea, Oct., 2019
Zuxuan Wu, Xin Wang, Joseph E. Gonzalez, Tom Goldstein, Larry S. Davis
AdaFrame: Adaptive Frame Selection for Fast Video Recognition.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, USA, June, 2019
Zuxuan Wu, Caiming Xiong, Chih-Yao Ma, Richard Socher, Larry S Davis
The Regretful Agent: Heuristic-Aided Navigation through Progress Estimation.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, USA, June, 2019
Chih-Yao Ma, Zuxuan Wu, Ghassan AlRegib, Caiming Xiong, Zsolt Kira
Visual Content Recognition by Exploiting Semantic Feature Map with Attention and Multi-task Learning.
ACM Trans. Multimedia Comput. Commun (ACM TOMM), vol. 15, issue 1, pp. 6:1-6:22, 2019.
Rui-Wei Zhao, Qi Zhang, Zuxuan Wu, Jianguo Li, Yu-Gang Jiang
Self-Monitoring Navigation Agent via Auxiliary Progress Estimation.
International Conference on Learning Representations (ICLR), New Orleans, USA, May, 2019
Chih-Yao Ma, Jiasen Lu, Zuxuan Wu, Ghassan AlRegib, Zsolt Kira, Richard Socher, Caiming Xiong
DCAN: Dual Channel-wise Alignment Networks for Unsupervised Scene Adaptation.
European Conference on Computer Vision (ECCV), Munich, Germany, September, 2018. code
Zuxuan Wu, Xintong Han, Yen-Liang Lin, Mustafa Gkhan Uzunbas, Tom Goldstein, Ser Nam Lim, Larry S. Davis
BlockDrop: Dynamic Inference Paths in Residual Networks.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Salt Lake City, USA, June, 2018. (Spotlight) code
Zuxuan Wu* Tushar Nagarajan*, Abhishek Kumar, Steven Rennie, Larry S. Davis, Kristen Grauman, Rogerio Feris (* denotes equal contribution)
VITON: An Image-based Virtual Try-on Network.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Salt Lake City, USA, June, 2018. (Spotlight) code
Xintong Han, Zuxuan Wu, Zhe Wu, Ruichi Yu, Larry S. Davis
Exploiting Feature and Class Relationships in Video Categorization with Regularized Deep Neural Networks.
IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), Vol. 40, Issue 2, pp. 352-364, 2018.
Yu-Gang Jiang, Zuxuan Wu, Jun Wang, Xiangyang Xue, Shih-Fu Chang
Fudan-Columbia Video Dataset (FCVID), one of the largest public Web video datasets with manual annotations.
Deep Learning for Video Classification and Video Captioning.
In Frontiers of Multimedia Research, Shih-Fu Chang (Ed.), ACM Morgan & Claypool, New York, NY, USA, pp. 3-29, 2018
Zuxuan Wu, Ting Yao, Yanwei Fu, Yu-Gang Jiang
Surveying 100+ recent literatures on video classification and captioning with deep learning.
Weakly-Supervised Spatial Context Networks.
arXiv preprint arXiv:1704.02998
Zuxuan Wu, Larry S. Davis, Leonid Sigal
Automatic Spatially-aware Fashion Concept Discovery.
International Conference on Computer Vision (ICCV), Venice, Italy, Oct., 2017
Xintong Han, Zuxuan Wu, Phoenix Huang, Xiao Zhang, Menglong Zhu, Yuan Li, Yang Zhao, Larry S. Davis
Learning Fashion Compatibility with Bidirectional LSTMs.
ACM Multimedia (ACM MM), Mountain View, USA, Oct., 2017
Xintong Han, Zuxuan Wu, Yu-Gang Jiang, Larry S. Davis
Learning Semantic Feature Map for Visual Content Recognition.
ACM Multimedia (ACM MM), Mountain View, USA, Oct., 2017
Rui-Wei Zhao, Zuxuan Wu, Jianguo Li, Yu-Gang Jiang
Harnessing Object and Scene Semantics for Large-Scale Video Understanding.
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, USA, June, 2016. (Spotlight)
Zuxuan Wu, Yanwei Fu, Yu-Gang Jiang, Leonid Sigal
Featured in Tech2, ACM Technews
Multi-Stream Multi-Class Fusion of Deep Networks for Video Classification.
ACM Multimedia (ACM MM), Amsterdam, the Netherlands, Oct., 2016. (Oral Paper)
Zuxuan Wu, Yu-Gang Jiang, Xi Wang, Hao Ye, Xiangyang Xue
Modeling Spatial-Temporal Clues in a Hybrid Deep Learning Framework for Video Classification.
ACM Multimedia (ACM MM), Brisbane, Australia, Oct., 2015. (Oral Paper)
Zuxuan Wu, Xi Wang, Yu-Gang Jiang, Hao Ye, Xiangyang Xue
Obtain 91.3% accuracy on the UCF-101 dataset.
Evaluating Two-Stream CNN for Video Classification.
ACM International Conference on Multimedia Retrieval (ICMR), Shanghai, China, June, 2015 motion CNN model
Hao Ye, Zuxuan Wu, Rui-Wei Zhao, Xi Wang, Yu-Gang Jiang, Xiangyang Xue
Exploring Inter-feature and Inter-class Relationships with Deep Neural Networks for Video Classification.
ACM Multimedia (ACM MM), Orlando, USA, Nov., 2014. (Oral Paper)
Zuxuan Wu, Yu-Gang Jiang, Jun Wang, Jian Pu, Xiangyang Xue

Biography

Selected Publications

Professional Service