Publications

RL’s Razor: Why Online Reinforcement Learning Forgets Less

Idan Shenfeld, Jyothish Pari, Pulkit Agrawal
Published in Arxiv Preprint, 2025

Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty

Mehul Damani, Isha Puri, Stewart Slocum, Idan Shenfeld, Leshem Choshen, Yoon Kim, Jacob Andreas
Published in Arxiv Preprint, 2025

Language Model Personalization via Reward Factorization

Idan Shenfeld, Felix Faltings, Pulkit Agrawal, Aldo Pacchiano
Published in COLM, 2025

Learning How Hard to Think: Input-Adaptive Allocation of LM Computation

Mehul Damani, Idan Shenfeld, Andi Peng, Andreea Bobu, Jacob Andreas
Published in ICLR, 2025

The Future of Open Human Feedback

Shachar Don-Yehiya, Ben Burtenshaw,... Idan Shenfeld ..., Leshem Choshen
Published in Nature Machine Intelligence, 2025

Value Augmented Sampling for Language Model Alignment and Personalization

Idan Shenfeld, Seungwook Han, Akash Srivastava, Yoon Kim, Pulkit Agrawal
Published in ICLR 2024 Workshop on Reliable and Responsible Foundation Models (**Oral Talk**), 2024

Curiosity-driven Red-teaming for Large Language Models

Zhang-Wei Hong, Idan Shenfeld, Tsun-Hsuan Wang, Yung-Sung Chuang, Aldo Pareja, James R. Glass, Akash Srivastava, Pulkit Agrawal
Published in ICLR, 2024

TGRL: An Algorithm for Teacher Guided Reinforcement Learning

Idan Shenfeld, Zhang-Wei Hong, Aviv Tamar, and Pulkit Agrawal
Published in ICML, 2023

Selected for Oral Presentation at 2023 ICLR RRL Workshop.

Offline Meta Reinforcement Learning - Identifiability Challenges and Effective Data Collection Strategies

Ron Dorfman, Idan Shenfeld, and Aviv Tamar
Published in NeurIPS, 2021