Fine-Grained Human Feedback Gives Better Rewards for Language Model Training

Item #:

075280-2574

Details

DOI: https://doi.org/10.52202/075280-2574
Author(s): Prithviraj Ammanabrolu, Nouha Dziri, Hannaneh Hajishirzi, Yushi Hu, Mari Ostendorf, Weijia Shi, Noah Smith, Alane Suhr, Zeqiu Wu
Pages: 59008-59033 (26 pages)
Format: PDF Paper Download
Conference: Advances in Neural Information Processing Systems 36
Date/Location: Held 10-16 December 2023, New Orleans, Louisiana, USA.
Series: Advances in Neural Information Processing Systems 36
Publisher: Neural Information Processing Systems Foundation, Inc. (NeurIPS)

DOI: https://doi.org/10.52202/075280-2574
Author(s): Prithviraj Ammanabrolu, Nouha Dziri, Hannaneh Hajishirzi, Yushi Hu, Mari Ostendorf, Weijia Shi, Noah Smith, Alane Suhr, Zeqiu Wu
Pages: 59008-59033 (26 pages)
Format: PDF Paper Download
Conference: Advances in Neural Information Processing Systems 36
Date/Location: Held 10-16 December 2023, New Orleans, Louisiana, USA.
Series: Advances in Neural Information Processing Systems 36
Publisher: Neural Information Processing Systems Foundation, Inc. (NeurIPS)